^ SN 
SN ^ ss 


.801.^ uZ:.^ Fqx-^^ aNnl `` 
u$ON=1 BHOX~* üNan^^ RDFsr 
ZGQBA | RØBE; ~aNBR : ^uFBRI 
Ma + “xei + ma 1 + a 
esx!!! d: LE «Na. .^ ^"NzI*-' 
NRX*--^ IBar12^ ; Bn: <Z— Rrira<* 
züc^«X^ “BOi ^r«. .Ba-^1 :' su^ii.^ 
"Bs ^^ ZBZ1i^' NBU<<i' <Rs<<~* 
RRSH™' + .B$8-.. * vE$U^i . * BN~11， 
n$B=Xn; .^ $RsZa^^^ ~$ØNF-- =$Bai=v 
iBBBBVUT-7 ^ "HBBZ"zFri^ "eBgaHrsi^ LUEEErwvn 
"$gaacRe ^ vul "$$8HvyN:..-' N$BGXshHzi .H$$2X5 ^ 
FRHZuqr- ' 中 uBHs:B;. 中 ge6N:1.™ + ENi 
ZZzUFRBF|.^ RNUXagu.. sAN=-<** “BBHy > 
;BRHY n$U 全 ~>BRzcig$u 人 "eHz;a^. rP$o | 
“ARN1 — “Bis i iq@Au* qB:. ^gRsFR1^ “ARGS 
'Onv* 01." ‘pzsUu*> — vz.' InusONuay—~ =qUHU; 
eOqr rs, + <aUz™ 号 + .1FNAU;。 q 中 1aNHRF ^" 
^1zHZ< uz- 
wy ni^ 


"MN 


S3 HER T UHJTZ/D 3 2]7J 88 
THE DEEP LEARNING 
REVOLUTION 


[ 3$ | 特 伦 斯 * 谢 诺 夫 斯 基 (Terrence Sejnowski ) _ 3 sepe 


读 懂 深度 学 习 ， 才 能 不 被 Al 取代 ! 
你 可 以 只 读 谢 诺 夫 斯 基 


谷歌 前 云 Al 负责 人 FCC 诚挚 推荐 
微软 小 冰 之 父 SR 作 序 推荐 


世界 十 大 Al 科学 家 之 一 


美国 “四 院 院士 ” 
全 球 Al 专业 会 议 NIPS 基金 会 主席 


中 信 出 版 集团 


SHEET HERIDAA ST H > 


版 权 信息 


书 名 :深度 学 习 

作者 :[ 美 ] 特 伦 斯 ' 谢 诺 夫 斯 基 
PEE EDU 
ISBN:9787508698359 

中 信 出 版 集团 制作 发 行 
版 权 所 有 :侵权 必 完 


BRAT BAR OR BE FED AZ SR 
iE DA ee 2s A P] HE A 


推荐 序 
面 对 科 技 抛 点 ， 我 们 的 判断 与 选择 


李 笛 
微软 小 冰 之 父 
微软 〈 亚 洲 ) 互联 网 工程 院 副 院 长 


在 近年 来 陆续 出 版 的 、 解 读 人 工 智能 技术 与 趋势 的 许多 书籍 中 ， 这 
是 一 本 不 可 多 得 的 好 书 。 它 的 阅读 过 程 令 人 愉悦 ， 涉 及 的 知识 深度 又 比 
较 恰 当 。 因 此 ， 即 使 是 不 具备 相关 领域 知识 背景 的 读者 ， 也 能 够 轻松 地 
读 完 它 。 人 们 完全 可 以 利用 “碎片 时 间 ” 来 研读 这 本 30 多 万 字 的 大 作 ， 
从 而 集中 了 解 到 与 人 工 智能 相关 的 技术 分 支 、 组 织 人 物 与 重要 事件 。 在 
人 工 智能 热度 很 高 的 当下 ， 这 本 书 的 价值 在 于 ， 帮 助 读者 建立 一 种 相对 
贴近 事实 的 科学 观 。 

读者 可 以 把 这 本 书 当 作 一 本 有 关 人 工 智 能 的 简明 历史 来 看 待 。 人 工 
智能 是 科技 王冠 上 的 钻石 ， 而 深度 学 习 代 表 了 其 中 一 个 承上启下 的 重要 
阶段 。 深 度 学 习 脱 胎 于 科学 家 们 六 十 多 年 前 开始 的 人 工 智 能 研究 ， 其 自 
身 的 概念 形成 ， 到 落地 开花 ， 则 只 有 十 多 年 的 光景 。 与 过 去 相 比 ， 深 度 
学 习 极 大 地 推进 了 人 工 智 能 各 个 分 支 课题 的 发 展 速度 ; 与 未 来 相 比 ， 我 
们 今天 所 取得 的 一 切 成 果 ， 都 是 非常 粗糙 的 ， 注 定 会 被 更 好 的 成 果 取 
代 。 因 此 ， 了 解 深度 学 习 ， 就 如 同 站 在 一 个 关键 的 节点 上 向 时 间 河 流 的 
LF vA, —Ó 7G. 

我 相信 ， 不 同 的 人 会 从 这 本 书 中 得 到 不 同 的 收获 。 总 体 而 言 ， 这 本 
书 有 助 于 在 我 们 心目 中 更 加 清晰 准确 地 绘制 人 工 智能 的 未 来 图 景 。 从 某 
种 意义 上 说 ， 所 有 的 过 去 亦 都 昭示 了 未 来 ， 但 我 更 建议 读者 以 最 轻松 的 


心态 来 阅读 它 。 因 为 这 样 ， 能 够 让 读者 以 更 加 客观 公正 的 视角 去 检阅 人 
类 与 机 器 的 能 力 短 板 与 优 长 一 一 你 可 以 从 本 书 中 了 解 到 那些 令 人 惊讶 ， 
甚至 于 有 些 担 忧 的 科技 进展 ， 大 致 了 解 它们 背后 的 原理 。 这 展现 了 人 工 
智能 相对 于 人 类 而 言 的 单方 面 优 执 。 另 一 方面 ， 你 也 能 看 到 许多 真实 事 
例 ， 反 映 了 人 工 智能 相对 于 人 类 而 言 的 “ 策 拙 ”。 科 学 与 科学 幻想 泾 渭 
分 明 。 在 现实 中 ， 这 种 “ 策 抽 ”的 情况 往往 更 加 普遍 。 这 些 事例 有 时 令 
人 忍俊不禁， 它 惟 恰 体现 了 我 们 人 类 的 大 脑 是 多 么 精妙 的 设计 。 

事实 上 ， 在 我 看 来 ， 当 下 最 令 人 念 得 不 定 的 ， 并 不 是 人 工 智能 有 多 
么 “强大 ”或 有 多 么 “笨拙”， 而 是 我 们 已 处 在 一 个 科技 的 拐点 ， 需 要 
由 我 们 每 个 人 对 未 来 的 走向 做 出 抉择 。 这 是 一 个 非常 具有 现实 意义 的 话 
题 。 虽然 深度 学 习 是 这 个 拐点 的 主要 推动 力 之 一 ， 但 它 并 不 需要 为 我 们 
的 困扰 承担 责任: 


。 选择 权 的 困扰 : 一 辆 无 人 驾驶 汽车 行驶 在 道路 上 ， 假 设 突然 面临 
必然 要 发 生 的 车 祸 ， 它 应 当 向 左 撞 向 一 个 无 章 的 老人 ， 还 是 向 右 撞 向 一 
个 无 章 的 壮年 ? 


。 决策 权 的 困扰 : 一 个 系统 可 以 基于 人 类 个 体 不 具备 的 广泛 即时 的 
大 数据 ， 用 任何 人 无 法 企及 的 速度 ， 迅 速 做 出 菜 个 决策 。 这 样 的 洞察 和 
决策 力 ， 应 该 掌握 在 谁 的 手中 ? 


。 工作 权 的 困扰 : 一 项 基于 人 工 智 能 的 技术 可 以 比 人 类 以 更 好 的 质 
量 和 速度 去 完成 某 项 生产 。 这 项 技术 应 该 归属 于 工厂 主 来 代替 工人 ， 还 
是 应 该 归属 于 工人 来 帮助 工厂 主 更 好 地 完成 工作 ? 前 者 会 带 来 失业 ， 而 
后 者 有望 带 来 更 高 的 工作 效率 。 

。 社会 层面 的 困扰 : 一 个 面向 情感 的 人 工 智 能 机 器 人 帮助 一 个 人 解 
决 孤单 ， 却 使 他 主动 减少 了 与 他 人 的 社交 沟通 。 这 种 陪伴 究竟 是 在 者 他 
解决 问题 ， 还 是 制造 了 更 多 的 问题 ? 

。 技术 滥用 的 困扰 : 一 项 技术 可 以 帮助 任何 人 打造 与 他 们 高 度 相 似 
的 语音 ， 制 造 出 来 的 声音 ， 令 他 的 家 人 也 难 辨 真 假 。 这 样 的 技术 会 不 会 


被 别有用心 的 人 用 于 犯罪 ,例如 诈骗 电话 ? 


不 知 不 觉 闻 ， 这 些 看 似 路 远 的 事 ， 突 然 闻 已 变 成 我 们 必须 要 面 对 的 
现实 情况 ， 而 我 们 也 已 经 在 上 述 一 些 场 景 中 做 出 了 初步 的 抉择 。 其 中 一 
个 关键 因素 是 ， 人 们 常常 对 人 工 智 能 的 “智商 ”印象 深刻 ， 但 往往 忽略 
T: 人 工 智 能 系统 化 的 优势 之 一 在 于 “大 规模 的 并 发 ”。 因 此 ， 住 何 一 
种 以 上 技术 应 用 的 场景 ， 只 要 来 以 巨大 的 人 口 ， 都 会 带 来 很 大 的 影响 
相对 而 言 ， 在 围棋 游戏 中 赢 过 人 类 ， 其 实 是 最 不 需要 担忧 的 了 。 


在 微软 ， 我 们 最 近 成 立 了 dri dus ， 力 图 在 当 
前 的 框架 内 去 发 现 尽 量 多 的 问题 ， 能 在 早期 就 避免 问题 的 发 生 。 微 
软 在 人 工 智 能 领域 的 技术 和 产品 ees 因此 我 们 做 过 的 抉择 也 相对 
较 多 。 这 些 抉择 往往 决定 了 我 们 在 有 能 力 的 情况 下 ,主动 放弃 去 做 什 
Ao 


REAARHSRERZS. Pll: 微软 小 冰 在 两 年 前 推出 拟人 的 全 
双 工 语音 电话 技术 (Full Duplex) Hb, 我们 就 制定 了 该 产品 的 伦理 规 
则 ， 不 允许 在 用 户 不 知情 的 情况 下 ， 让 小 冰 伪 装 成 真人 去 拨打 电话 。 我 
们 也 不 使 用 微软 小 冰 的 技术 去 从 事 呼叫 中 心 的 外 图 业务 ， 因为 它 存在 被 
今天 ， 在 中 国 、 美 国 、 日 本 、 印 度 和 印度 尼 西 亚 ， 微 软 小 冰 拥 有 近 7 亿 
人 类 用 户 ， 了 力 请 导 人 们 去 购买 某 种 商品 ， 显 然 会 
带 来 可 观 的 收入 预期 。 但 谁 会 愿意 和 一 个 一 心 想 着 如 何 诱 性 你 买 东西 的 
人 成 为 知己 呢 ? 


这 种 克制 ， 不 仅仅 是 一 两 家 企业 的 责任 。 它 依赖 于 整个 社会 对 人 工 
智能 ， 特 别 是 深度 学 习 相 关 技 术 的 了 解 。 对 技术 的 了 解 越 普遍 ， 也 就 越 
能 帮助 企业 更 好 地 运用 手中 的 技术 ， 进而 帮助 我 们 每 一 个 人 获得 更 好 的 
生活 ， 享 受 人 工 智能 为 我 们 带 来 的 价值 。 


在 我 看 来 ， 这 就 是 这 本 书 所 具有 的 现实 意义 。 它 并 非 教 科 书 ， 而 是 
一 本 面向 未 来 的 历史 书 。 它 揭示 了 人 工 智 能 有 望 给 世 jtd ie 
巨大 改变 ， 远 超 我 们 现在 所 能 想象 到 的 全 双 工 语音 、 人 脸 识 别 、 情 感 计 


算 甚 至 是 自动 驾驶 。 换 句 话说， 基于 我 们 现在 的 技术 和 产品 水 平 ， 相 信 
许多 人 已 能 在 脑海 中 比较 清晰 地 勾勒 出 ， 自 己 在 马路 上 与 一 辆 并 没有 司 
机 驾驶 的 汽车 相遇 的 场景 。 但 与 人 工 智 能 即将 展现 的 伟大 图 景 相 比 ， 这 
些 都 不 值 一 提 。 


中 文 版 序 
人 工 乔 能 会 放大 认 知 能 力 


60 年 前 ， 数 字 计 算 机 在 人 工 智能 (A1) KAFANE, RAFE 
命 的 种 子 也 在 那 时 被 播种 开 来 。 深 度 学 习 是 数据 密集 型 的 ， 通 过 实例 来 
学 习 如 何 解 决 难题 ， 比 如 视觉 对 象 识别 、 语 音 识 别 和 自然 语言 翻译 等 。 
人 类 从 婴儿 时 期 睁 开 了 眼睛 的 那个 时 刻 起 ， 就 开始 从 经 验 中 学 习 ， 到 后 来 
获得 语言 、 运 动 、 玩 电子 游戏 等 最 高 程度 的 能 力 ; 相 比 之 下 ， 传 统 的 劳 
动 密集 型 人 工 智 能 方法 是 基于 编写 不 同 的 复杂 计算 机 程序 来 解决 每 个 问 
题 。 


本 书 讲述 了 20 世 纪 80 年 代 一 小 群 研究 人 员 的 故事 ， 他 们 证 明了 基于 
大 脑 式 计算 的 全 新 方法 是 可 行 的 ， 从 而 为 深度 学 习 的 发 展商 定 了 基础 。 

当时 已 有 的 人 工 智 能 学 术 研 究 中 心 都 投注 于 编程 ， 并 且 都 具有 强大 
的 实力 ， 但 却 无 法 解决 上 述 任何 难题 。 又 过 了 30 年 ， 计 算 机 才 变 得 足够 
快 ， 也 出 现 了 大 量 可 供 利 用 的 数据 。 这 一 变化 让 深度 学 习 得 以 克服 这 些 
难题 ， 并 在 今天 的 人 工 智能 领域 占据 主导 地 位 。 其 他 领域 同样 可 以 借鉴 
这 一 经 验 教 训 ， 例 如 语言 学 ， 曾 经 普遍 持 有 的 既定 信念 阻碍 了 该 领域 整 
整 一 代 研 究 者 的 进步 。 深 度 学 习 改 变 了 语言 学 ， 使 其 发 展 基 于 来 自 现实 
世界 的 数据 ， 而 非 无 法 捕 提 这 些 复 杂 性 的 理想 世界 的 数据 。 

回溯 历史 ， 人 工 智能 诞生 的 秘密 可 以 在 自然 界 中 找到 答案 ， 我 们 对 
此 并 不 应 该 感到 惊讶 。 大 自然 有 数 亿 年 的 时 间 通 过 进化 找到 解决 方案 ， 
对 这 些 解 决 方案 进行 逆向 工程 能 够 让 我 们 受益 菲 浅 。 了 解 大 脑 如 何 运 转 
是 21 世 纪 最 大 的 挑战 之 一 。 大 自然 发 明了 许多 经 受 住 了 时 间 考 验 的 算 
法 。 理 解 这 一 挑战 并 投资 于 大 脑 研究 的 国家 将 获得 巨大 的 回报 ， 远 远 超 


出 20 世 纪 物 理学 和 化 学 研究 的 突破 所 产生 的 影响 ， 这 些 影响 已 经 极 大 地 
丰富 了 我 们 的 生活 。 美 国 已 经 为 “BRAIN 计 划 ” 《英文 全 称 为 Brain 

Research through Advancing Innovative Neurotechnologies, 
即 “ 通 过 推动 创新 型 神经 技术 开展 大 脑 研 究 计 划 ”) 注资 50 亿 美元 ， 欧 
洲 、 we 中 国正 在 投资 当 


前 的 人 工 智能 技术 ， 但 它 是 否 拥 有 投资 大 脑 研 究 的 远见 ， 年 青 一 代 又 是 
否 会 接受 这 一 挑战 呢 ? 
深度 学 习 对 社会 和 个 人 生活 将 产生 深远 的 影响 ， 其 影响 方式 也 是 难 


以 想象 的 。 在 本 书 中 ， 我 提出 了 一 个 观点 ， ani Gear EE 将 接 
管 你 的 工作 。 人 工 智 能 会 让 你 更 聪明 ， 让 你 所 能 实现 的 成 就 达到 新 的 高 
度 。 就 像 工 业 革 命 时 期 蒸汽 机 放大 了 物理 能 力 一 样 ， 人 工 智能 也 会 放大 
认 知 能 力 。 我 们 刚刚 步 EROR URB. ` 时 代 。 我 们 进入 的 新 世 
界 不 仅 会 使 我 们 变 得 更 聪明 ， 还 会 让 我 们 更 清楚 地 认识 自己 ， 从 而 回答 
古代 的 哲学 先驱 们 最 早 提 出 的 一 系列 问题 。 对 于 自身 ， 我 们 又 会 得 出 哪 


些 深 刻 的 见解 呢 ? 


HU ri 
深度 学 习 与 智能 的 本 质 


如 果 你 在 连接 了 互联 网 的 安 草 手机 或 谷歌 翻译 平台 上 使 用 语音 识别 
功能 ， 你 其 实 是 在 与 经 过 深度 学 习 训 练 的 神经 网 络 .三 进行 交流 。 过 去 几 
年 ， 深 度 学 习 为 谷歌 带 来 了 丰厚 的 利润 ， 足 以 支付 Google X 实 验 室 中 所 
有 未 来 主义 项 目的 成 本 ， 包 括 自 动 驾 驶 汽车 、 谷 歌 眼镜 和 谷歌 大 脑 。 三 
谷歌 是 最 早 拥 抱 深度 学 习 的 互联 网 公司 之 一 ， 并 在 2013 年 聘请 了 深度 学 
习 之 父 杰 弗 里 。 辛 顿 (Geoffrey Hinton) ， 其 他 公司 也 在 竞相 追赶 它 
的 脚步 。 


人 工 智 能 近期 取得 的 进展 得 益 于 大 脑 送 向 工程 。 分 层 神经 网 络 模型 
的 学 习 算 法 受到 了 神经 元 之 间 交 流 方式 的 启发 ， 并 依据 经 验 进行 了 改 
进 。 在 网 络 内 部 ， 世 界 的 复杂 性 转变 为 五 彩 缤纷 的 内 部 活动 模式 ， 这 些 
模式 是 智能 的 元 素 。 我 在 20 世 纪 80 年 代 研究 的 网 络 模型 很 小 ， 相 比 之 
下 ， 现 在 的 模型 有 数 百 万 个 人 造 神经 元 ， 深 度 达到 了 几 十 层 。 持 久 的 努 
力 、 大 数据 和 更 强大 的 计算 机 运算 能 力 使 得 深度 学 习 在 人 工 智能 领域 一 
些 最 困难 的 问题 上 取得 了 重大 突破 。 


我 们 并 不 善于 想象 新 技术 对 未 来 的 影响 。 谁 能 在 1990 年 互联 网 刚 开 
始 商业 化 的 过 程 中 预见 到 它 对 音乐 产业 的 影响 ， 以 及 对 出 租车 业务 、 政 
治 运动 ， 还 有 我 们 日 常生 活 几 乎 所 有 方面 的 影响 ? 同样 ， 我 们 也 未 能 预 
见 到 电脑 会 如 何 改 变 我 们 的 生活 。1BM (国际 商业 机 器 公司 ) 总 裁 托 马 
斯 。 沃 森 (Thomas J. Watson) 在 1943 年 说 的 一 名 话 后 来 被 广泛 引 
A: “我 觉得 全 世界 也 许 能 卖 出 5 台 计 算 机 吧 。”' 二 很 难 想象 一 个 新 发 
明 都 有 哪些 用 途 ， 其 发 明 人 对 这 些 用 途 的 预测 也 不 见得 比 其 他 人 更 准 


5. 在 乌托邦 和 世界 末日 的 两 极 之 间 ， 有 很 多 关于 深度 学 习 和 人 工 智能 
应 用 场景 的 预测 空间 ， 但 即使 是 最 具 想象 力 的 科幻 小 说 作家 也 不 大 可 能 
猜 出 它们 最 终 会 产生 什么 样 的 影响 


本 书 的 初稿 是 我 在 太平 洋 西北 地 区 三 徒步 旅行 ， 并 思索 了 近 几 十 年 
来 人 工 智 能 领域 的 显著 变化 之 后 写 出 来 的 。 这 本 书 讲 了 一 个 一 小 群 研究 
人 员 挑 战 Al 研究 建制 派 的 故事 ， 这 些 建制 派 在 当时 拥有 更 充足 的 资金 支 
持 ， 并 被 看 作 “ 唯 一 的 主导 力量 ”， 他 们 大 大 低估 了 这 些 问 题 的 难度 ， 
并 且 所 依赖 的 对 智能 的 直觉 ， 后 来 被 证 明 是 有 误 于 性 的 。 


地 球 上 的 生命 充满 了 无 数 奥秘 ， 但 最 具 挑 战 性 的 也 许 是 智能 的 本 
质 。 自 然 界 充斥 着 各 种 形式 的 智能 ， 从 微小 的 细菌 到 复杂 的 人 类 智能 
每 种 智能 都 适应 了 它 在 自然 界 中 的 位 置 。 人 工 智和 E 也 将 以 多 种 形式 出 
现 ， 并 在 智能 族谱 中 占据 特殊 的 位 置 。 随 着 基于 深度 神经 网 络 的 机 器 智 

渐 成 熟 ， 它 可 以 为 生物 智能 提供 一 个 新 的 概念 框架 


这 是 一 本 关于 深度 学习 的 过 去 、 现 在 和 未 来 的 指南 。 不 过 本 书 并 不 
是 对 该 领域 发 展 历史 的 全 面 梳理 ， 而 是 记录 了 这 一 领域 重要 概念 的 进步 
及 其 背后 研究 群体 的 个 人 观点 。 人 类 的 记忆 并 不 可 靠 ， 对 故事 的 每 次 复 
oic DU 这 个 过 程 叫 作 “ 重 整 记忆 ”。 这 本 书 中 的 故事 
延续 了 40 多 年 ， 尽 管 有 些 对 我 来 说 依然 历历 在 目 ， 就 像 昨 天 刚 发 生 的 一 
样 ， 但 我 很 清楚 ， 那 些 故 事 在 我 的 记忆 中 不 断 被 复述 时 ， 有 些 细节 已 经 
悄悄 地 被 改写 了 。 


本 书 的 第 一 部 分 提供 了 深度 学 习 的 动机 和 理解 其 起 源 所 需 的 背景 信 
息 ; 第 二 部 分 解释 了 几 种 不 同类 型 的 神经 网 络 架 构 中 的 学 习 算 法 ; 第 三 
小 则 探讨 了 深度 学 习 对 我 们 当下 生活 产生 的 影响 ， 以 及 未 来 若干 年 可 

能 产生 的 影响 。 然 而 ， 正 如 纽约 扬 基 队 的 哲人 尤 吉 。 贝 拉 (Yogi 
ae 曾经 说 过 的 那样 “做 出 预测 很 难 ， 特 别 是 对 未 来 的 预 

测 。” 本 书 前 八 章 的 内 容 交 代 了 故事 的 技术 背景 ; 三 个 部 分 开头 的 要 事 
年 表 记 录 了 与 这 个 故事 有 关 的 事件 ， 时 间 跨 度 超 过 了 60 年 。 


4. 


严格 地 说 ， 神 经 网 络 是 一 个 生物 实体 ， 机 器 学 习 中 使 用 的 模型 是 人 工 神经 网 络 一 一 
ANNies。 但 若 无 另 行 说 明 ， 本 书 中 的 “神经 网 络 ? 软 认 代 指 人 工 神经 网 络 。 

Conor Dougherty, “Astro Teller, Google’s ‘Captain of Moonshots,’ on Making Profits at 
Google X,” New York Times, February 6, 2015, 
https://bits.blogs.nytimes.com/2015/02/16/googles-captain-of-moonshots-on-making-profits-at- 
google-x. 深度 学 习 将 运行 数据 中 心 的 电力 成 本 降低 了 15%， 每 年 可 以 节省 数 亿美 元 。 

尽管 添 森 在 1943 做 出 的 估计 从 未 得 到 过 确认 ， 但 它 反 映 了 当时 的 人 们 普 过 无 法 想象 
电脑 的 未 来 。 

太平 洋 西北 地 区 是 指 美国 西北 部 地 区 和 加 拿 大 的 西南 部 地 区 。 一 一 编者 注 


要 事 年 表 


1956 年 


达 特 荐 斯 人 工 智能 夏季 研究 计划 (The Dartmouth Artificial 
Intelligence Summer Research Project) 开局 了 人 工 第 能 领域 的 研 
究 ， 并 鼓 兽 了 一 代 科 学 家 探寻 可 以 媲美 人 类 智慧 的 信息 技术 的 潜力 。 


1962 年 


弗兰克 。 罗 森 布 拉 特 (Frank Rosenblatt) 出 版 了 《神经 动力 学 
原理 : 感知 器 和 大 脑 机 制 的 理论 》(Principles of Neurodynamics: 
Perceptrons and the Theory of Brain Mechanisms)， 该 书 介绍 了 
一 种 应 用 于 具有 单 层 可 变 权 重 的 神经 网 络 模型 的 学 习 算 法 ， 该 算法 是 
今天 的 深度 神经 网 络 模型 的 学 习 算 法 的 前 身 。 


1962 年 


大 卫 。 休 伯 尔 (David Hubel) 和 托 斯 坦 。 威 泽 尔 (Torsten 
Wiesel) 发 表 了 《 猫 的 视觉 皮质 中 的 感受 野 、 双 目 互动 和 功能 架构 》 
(Receptive Fields,Binocular Interaction and Functional 
Architecture in the Cat’ s Visual Cortex) 一 文 ， 第 一 次 报道 了 
由 微 电 极 记录 的 单个 神经 元 的 响应 特性 。 深 度 学 习 网 络 的 架构 类 似 于 
视觉 皮质 的 层次 结构 。 


1969 年 


马 文 。 明 斯 基 (Marvin Minsky) #7 ER #4 4% (Seymour 
Papert) 出 版 了 《感知 器 》 (Perceptrons), ， 该 书 指出 了 单个 人 造 神 
经 元 的 计算 极限 ， 标 志 着 神经 网 络 领 域 寒冬 的 到 来 。 


1979 年 

杰 弗 里 。 辛 顿 和 诬 姆 斯 。 安 德 森 (James Anderson) 在 加 州 拉 荷 
亚 市 (La Jolla) 举办 了 “关联 记忆 的 并 行 模 型 ” (Parallel 
Models of Associative Memory) 研讨 会 ， 把 新 一 代 的 神经 网 络 先驱 
们 聚集 到 了 一 起 ， 同 时 也 推动 辛 顿 和 安德森 在 1981 年 发 表 了 同名 系列 
研究 著作 。 


1986 年 


第 一 届 神 经 信息 处 理 系统 大 会 (Neural Information 
Processing Systems， AF RARNIPS =?) 及 研讨 会 在 美国 丹佛 科技 中 
心 举办 ， 该 会 议 吸 引 了 很 多 不 同 领域 的 研究 人 员 。 


1. NIPS 现 通称 为 NeurIPS。 一 一 译 者 注 
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不 久之 前 ， 人 们 还 党 说 ， 计 算 机 视觉 的 辨别 能 力 尚 不 如 一 岁 大 的 防 
子 。 如 今 看 来 ， 这 句 话 要 改写 了 。 计 算 机 不 仅 能 和 大 多 数 成 年 人 一 样 识 
别 图 片 中 的 物体 ， 在 马路 上 驾驶 汽车 的 安全 性 还 高 过 16 岁 的 青少年 。 更 
神奇 的 是 ， 如 今 的 计算 机 不 再 是 被 动 按照 指令 识别 和 驾驶 ， 而 是 像 自然 
界 的 生命 由 数 百 万 年 前 开始 进化 那样 ， 自 主 地 从 经 验 中 学 习 。 是 数据 的 
井喷 促成 了 这 一 技术 进步 。 如 果 说 数据 是 新 时 代 的 石油 ， 那 么 学 习 算法 
就 是 从 中 提取 信息 的 炼油 厂 ， 信 息 积 黑 成 知识 ， 知 识 深化 成 理解 ， 理 解 
演变 为 智慧 。 欢 迎 来 到 深度 学 习 的 新 世界 。 三 

深度 学 习 是 机 器 学 习 的 一 个 分 支 ， 它 根植 于 数学 、 计 算 机 科学 和 神 
经 科学 。 深 度 网 络 从 数据 中 学 习 ， 就 像 婴 儿 了 解 周围 世界 那样 ， 从 陷 开 
眼睛 开始 ， 慢 慢 获 得 驾驭 新 环境 所 需 的 技能 。 深 度 学 习 的 起 源 可 以 追 测 
到 20 世 纪 50 年 代 人 工 智 能 的 诞生 。 关 于 如 何 构建 人 工 智能 ， 当 时 存在 两 
种 不 同 的 观点 ;一 种 观点 主张 基于 逻辑 和 计算 机 程序 ， 曾 主宰 人 工 智能 
的 研究 和 应 用 数 十 年 ， 另 一 种 观点 则 主张 直接 从 数据 中 学 习 ， 经 历 了 更 
长 时 间 的 摸索 才 逐 渐 成 熟 。 


20 世 纪 ， 计 算 机 技术 还 不 够 成 熟 ， 而 且 按 照 现在 的 标准 ， 数 据 存 储 
成 本 十 分 高 郧 ， 用 馆 辑 程序 来 解决 问题 更 加 高 效 。 熟 练 的 程序 员 需 要 为 
每 个 不 同 的 问题 编写 不 同 的 程序 ， 问 题 越 大 ， 相 应 的 程序 也 就 越 复 杂 。 
如 今 ， 计 算 机 能 力 日 趋 强大 ， 数 据 资源 也 变 得 庞大 且 丰 富 ， 使 用 学 习 算 
法 解决 问题 比 以 前 更 快 、 更 准确 ， 也 更 高 效 。 此 外 ， 同 样 的 学 习 算法 还 
能 用 来 解决 许多 不 同 的 难题 ， 这 远 比 为 每 个 问题 编写 不 同 的 程序 更 加 节 
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汽车 新 生态 : 无 人 区 驶 将 全 面 走 入 人 们 生活 


在 2005 年 美国 国防 部 高 级 研究 计划 局 (以 下 简称 DARPA) 举办 的 
自动 过 驶 挑战 赛 中 ， 一 辆 由 斯 坦 福 大 学 塞 巴 斯 带 安 . 特 隆 (Sebastian 
Thrun) 实验 室 开 发 的 目 动 驾驶 汽车 Stanley 最 终 启 得 了 200 万 美元 现金 大 
X WE- 。 团 队 利 用 了 机 器 学 习 技 术 教 它 如 何 自主 地 在 加 利 福 尼 
亚 州 的 沙漠 中 穿行 。132 英 里 的 赛 道 中 有 若干 狭窄 的 隧道 和 急 转 弯 ， 还 
包括 啤酒 瓶 道 (Beer Bottle Pass) ， 这 是 一 段 电 昨 曲折 的 山路 ， 两 侧 分 
别 是 碎 石 遍布 的 陡坡 和 断 壁 〈 见 图 1-2) 。 特 隆 并 没有 遵循 传统 的 AI 方 
法 ， 即 通过 编写 计算 机 程序 来 应 付 各 种 偶发 事件 ， 而 是 在 沙漠 中 构 驶 


Stanley， 让 汽车 根据 视觉 和 距离 传感器 的 感应 输入 ， 学 习 如 何 像 人 一 样 
EDS 
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图 1-1 塞 巴 斯 蒂 安 。 特 隆 及 其 团队 的 自动 驾驶 汽车 Stanley 在 2005 年 赢得 了 DARPA 举 
办 的 自动 驾驶 挑战 赛 。 这 项 突破 引发 了 交通 界 的 技术 革命 。 图 片 来 源 : ROME 


特 隆 。 


图 1-2 啤酒 瓶 道 。 这 上 段 极 具 挑 战 性 的 地 形 位 于 2005 年 DARPA 自 动 驾 驶 挑战 赛 的 末 段 。 
该 赛事 要 求 汽车 在 无 人 辅助 的 情况 下 驶 过 132 英 里 的 沙漠 荒 路 。 图 中 远 处 的 一 辆 卡车 


ERR. AH AIR: DARPA. 

特 隆 后 来 参与 创立 了 高 科技 项 目 重点 实验 室 Google X， 并 开始 了 进 
一 步 研究 自动 要 驶 汽车 技术 的 计划 。 谷 歌 的 自动 轨 驶 汽车 自 此 开始 ， 在 
旧金山 湾 区 累积 了 350 万 英里 的 车 程 。 优 步 (Uber) BAAM ETI 
了 一 批 目 动 驾 驶 汽车 。 苹 果 也 步 入 自动 驾驶 领域 ， 以 扩大 其 操作 系统 控 
制 的 产品 郊 围 ， 并 希望 能 够 再 现 它 在 手机 市 场 上 的 辉 焊 。 汽 车 制造 商 们 
杀 眼 看 见 一 个 100 年 来 从 未 改变 的 行业 在 他 们 眼前 发 生 了 转型 ， 也 开始 
奋起 直 授 。 通 用 汽车 公司 以 10 亿 美元 的 价格 并 购 了 开发 无 人 构 驶 技术 的 
硅谷 创业 公司 Cruise Automation， 并 在 2017 年 投入 了 额外 的 6 亿美 元 用 于 
研发 。 三 2017 年 ， 英 特 尔 以 153 亿 美元 的 价格 收购 了 Mobileye， 它 是 一 
家 专门 为 自动 驾驶 汽车 研发 传感器 和 计算 机 视觉 的 公司 。 在 价值 数 万 亿 
美元 的 交通 运输 领域 ， 参 与 的 各 方 都 下 了 极 高 的 赌注 。 


目 动 训 驶 汽车 不 久 将 扰乱 数 百 万 卡车 司机 和 出 租车 司机 的 生计 。 


终 ， 如 果 一 辆 自动 敬 驶 汽车 能 够 在 一 分 钟 内 出 现 ， 将 你 安全 带 到 目的 地 
且 无 须 停 车 ， 在 城市 拥有 汽车 就 显得 不 那么 必要 了 。 今 天 ， 汽 车 行驶 时 
间 平 均 仅 占 4%， 这 意味 着 它 其 余 96% 的 时 间 都 需要 停放 在 某 个 地 方 。 由 
于 自动 驾驶 汽车 可 以 在 城市 外 围 维修 和 停放 ， 城 市 中 被 大 量 停车 场 占用 
的 空间 得 以 被 重新 高 效 利 用 。 城 市 规划 者 已 经 开始 考虑 让 停车 场 变 成 公 
园 了 。 三 街 边 的 停车 道 可 以 成 为 真正 的 自行 车 道 。 其 他 汽车 相关 行业 也 
将 受到 影响 ， 包 括 汽 车 保险 业 和 修理 厂 。 超 速 和 停车 罚单 将 不 复 存 在 。 
由 醉 驾 和 疲劳 驾驶 导致 的 交通 事故 死亡 人 数 也 会 相应 减少 。 通 勤 浪 费 的 
时 间 也 将 被 节省 下 来 做 其 他 事情 。 根 据 2014 年 的 美国 人 口 普 查 数据 ， 
1.39 亿 上 班 族人 均 单 日 通勤 时 间 达 到 了 52 分 钟 ， 全 年 总 计 296 亿 小 时 。 
这 惊人 的 340 万 年 的 时 间 本 可 以 在 人 生 中 得 到 更 好 的 利用 。 二 自动 驾驶 
汽车 会 使 公路 通行 能 力 翻 两 看。 而 且 ， 一 旦 大 规模 投入 使 用 ， 没 有 方 
向 盘 、 可 以 自己 开 回 家 的 自动 驾驶 汽车 还 会 让 大 规模 汽车 盗窃 行为 销 声 
匿 迹 。 虽 然 目 前 自动 要 驶 汽车 仍 面临 很 多 监管 和 法 律 层面 的 障碍 ， 但 这 
一 技术 一 旦 开始 普及 ， 我 们 就 将 迎 来 一 个 办 新 的 世界 。 可 以 预见 的 是 ， 
卡车 大 概 会 在 10 年 内 率先 实现 自动 驾驶 ， 出 租车 要 花 上 15 年 ， 而 15 到 25 
年 后 ， 客 运 无 人 车 将 全 面 走 入 人 们 的 生活 。 

汽车 在 人 类 社会 中 的 标志 性 地 位 将 以 我 们 无 法 想象 的 方式 发 生变 
化 ， 一 种 新 的 汽车 生态 也 将 应 运 而 生 。 正 如 100 多 年 前 汽车 的 出 现 创造 
了 许多 新 的 行业 和 就 业 机 会 ， 围 绕 着 自动 驾驶 汽车 的 发 展 ， 也 出 现 了 一 

个 快速 增长 的 生态 系统 。 从 谷歌 独立 出 来 的 自动 驾驶 公司 Waymo，8 年 
enn 并 在 加 州 中 部 山谷 搭建 了 一 个 秘密 测试 场所 。 
该 场所 位 于 一 个 占 地 91 英 盏 的 仿造 小 镇 ， 其 中 还 设计 了 骑 自 行车 的 “ 演 
员 > 和 假 的 汽车 事故 。 名 其 目的 是 扩大 训练 数据 集 以 包含 特殊 和 不 党 见 
的 情况 (也 叫 边缘 情况 ) 。 公 路 上 罕见 的 驾驶 事件 经 常会 导致 事故 。 自 
动 敬 驶 汽车 的 不 同 之 处 就 在 于 ， 当 一 辆 汽车 遇 到 罕见 事件 时 ， 相 应 的 学 
习 体 验 会 被 传递 给 所 有 其 他 自动 驾驶 汽车 ， 这 是 一 种 集体 智能 。 其 他 自 
动 驾 驶 汽车 公司 也 在 建造 许多 类 似 的 测试 设施 。 这 些 举措 创造 了 以 前 并 
不 存在 的 新 工作 机 会 ， 以 及 用 于 汽车 导航 的 传感器 和 激光 器 的 新 供应 


人 

自动 驾驶 汽车 仅 是 信息 技术 推动 经 济 发 生 重大 转变 的 一 个 最 明显 的 
体现 。 网 络 上 的 信息 流 就 像 城市 管道 里 的 水 流 。 信 息 在 谷歌 、 亚 马 逊 、 
微软 和 其 他 IT 公司 的 大 型 数据 中 心 聚 集 。 这 些 数 据 中 心 需要 耗费 大 量 电 
力 ， 因 此 通 第 建 在 水 电站 附近 ， 并 利用 河水 来 冷却 信息 流 所 产生 的 大 量 
热量 。2013 年 ， 美 国 的 数据 中 心 消耗 了 1000 万 浪 瓦 的 电量 ， 相 当 于 34 个 
大 型 电厂 产生 的 电力 。' 三 但 是 目前 对 经 济 影响 更 大 的 是 如 何 使 用 这 些 信 
恩 。 从 原始 数据 中 提取 出 的 信息 被 转化 为 天 于 人 和 事 的 知识 : 我 们 做 什 
么 ， 我 们 想 要 什么 ， 我 们 是 谁 。 计 算 机 驱动 的 设备 也 在 越 来 越 多 地 利用 
这 些 知 识 与 我 们 进行 口头 上 的 交流 。 与 大 脑 之 外 、 书 本 之 中 的 被 动 知识 
不 同 ， 储 存在 云 中 的 知识 是 一 种 外 部 智能 ， 并 且 正 在 成 为 人 们 生活 中 积 
极 、 活 跃 的 一 部 分 。 三 


目 然 语言 翻译 : 从 语言 到 句子 的 飞跃 


如 今 ， 谷 歌 在 超过 100 种 服务 中 使 用 了 深度 学 习 ， 包 括 街 景 视图 
(Street View) 、 收 件 箱 智能 回复 (Inbox Smart Reply) 和 语音 搜索 。 
几 年 前 ， 谷 歌 的 工程 师 意 识 到 他 们 需要 将 这 些 计算 密集 型 应 用 扩展 到 云 
imo Th Poa a itt PP RES SINS, Fe batt Y 
可 以 插入 数据 中 心机 架 中 的 人 硬盘 插 槽 的 电路 板 。 谷 歌 的 张 量 处 理 单 元 
(TPU) 现在 已 配置 在 遍布 全 球 的 服务 右上， 让 深度 学 习 应 用 程序 的 性 
能 得 到 了 大 幅 改 进 。 

深度 学 习 快速 改变 格局 的 一 个 例子 是 它 对 语言 翻译 的 影响 。 语 言 翻 
译 是 人 工 智 能 的 一 只 圣杯 ， 因 为 它 依 赖 于 理解 句子 的 能 力 。 谷 歌 最 近 推 
出 了 基于 深度 学 习 的 最 新 版 谷歌 翻译 (Google Translate) ， 代 表 了 自然 
语言 翻译 质量 的 重大 改 跃 。 几 乎 一 夜 之 间 ， 语 言 翻 译 就 从 零散 杂乱 的 拼 
凑 和 短语， 升级 到 了 语意 完整 的 句子 〈 见 图 1-3) 。 之 前 的 计算 机 方法 搜 
过 的 是 可 以 被 一 并 翻译 的 词汇 组 合 ， 但 深度 学 习 会 在 整个 句子 中 寻找 词 


汇 之 间 的 依赖 关系 。 


图 1-3 手机 上 的 谷歌 翻译 应 用 可 以 将 日 语文 字 和 菜单 即时 译 成 英文 。 这 一 功能 对 于 
在 日 本 如 何 按 照 指 示 牌 来 车 尤为 重要 。 


得 知 谷歌 翻 译 获得 了 巨大 进步 的 消息 后 ，2016 年 11 月 18 日 ， 东 京 大 
学 的 唇 本 纯 一 〈Jun Rekimoto) 测试 了 这 个 新 系统 。 他 把 欧 内 斯 特 : 海 明 
威 的 小 说 《气力 马扎 罗 的 雪 》 开 头 的 一 段 话 翻译 成 了 日 文 ， 然 后 再 把 这 
段 日 文 翻译 成 英文 ， 结 果 如 下 〔〈 猜 猜 哪个 是 海明威 的 原作 ) : 


1. Kilimanjaro is a snow-covered mountain 19,710 feet 
high, and is said to be the highest mountain in Africa. Its 
western summit is called the Masai “Ngaje Ngai,” the 
House of God. Close to the western summit there is the 
dried and frozen carcass of a leopard. No one has explained 


what the leopard was seeking at that altitude. - 


2. Kilimanjaro is a mountain of 19,710 feet covered 
with snow and is said to be the highest mountain in Africa. 
The summit of the west is called “Ngaje Ngai” in Masai, 
the house of God. Near the top of the west there is a dry 
and frozen dead body of leopard. No one has ever explained 


what leopard wanted at that altitude. ^ — 


海明威 的 原作 是 第 一 段 。 


下 一 步 工作 是 训练 更 大 规模 的 深度 学 习 网 络 ， 针 对 段落 来 提高 句子 
间 的 连贯 性 。 文 字 背 后 都 有 悠久 的 文化 历史 。 俄 裔 作家 和 英文 小 说 家 ， 
《 洛 丽 塔 》 一 书 的 作者 弗 拉 基 米尔 : 纳 博 科 夫 (Vladimir Nabokov) 曾经 
得 出 结论 ， 在 不 同 语言 之 间 翻 译 诗歌 是 不 可 能 的 。 他 将 亚历山大 . 普 希 
金 (Aleksandr Pushkin〉 的 诗 体 小 说 《 叶 表 盖 尼 : 奥 涅 金 》 (Eugene 
Onegin) 直译 成 了 英文 ， 并 对 这 些许 文 的 文化 背景 做 了 解释 性 脚注 ， 以 
此 论证 他 的 观点 。 三 或 许 谷歌 翻译 终 有 一 天 能 够 通过 整合 莎士比亚 的 所 
有 诗歌 来 翻译 他 的 作品 。 三 


语音 识别 : 实时 路 文化 交流 不 再 遥远 


人 工 智 能 的 另 一 只 圣杯 是 语音 识别 。 不 久之 前 ， 计 算 机 的 独立 语音 
识别 应 用 领域 还 很 有 限 ， 如 机 票 预订 。 而 如 今 ， 限 制 已 不 复 存 在 。2012 
年 ， 一 名 来 自 多 伦 多 大 学 的 实习 生 在 微软 研究 院 (Microsoft Research) 
的 一 个 夏季 研究 项 目 中 ， 让 微软 的 语音 识别 系统 性 能 得 到 了 显著 的 提升 
〈 图 1-4) 。 三 2016 年 ， 微 软 的 一 个 团队 宣布 ， 他 们 开发 的 一 个 拥有 120 
层 的 深度 学 习 网 络 已 经 在 多 人 语音 识别 基准 测试 中 达到 了 与 人 类 相当 的 
Ao uf 
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图 1-4 微软 首席 研究 官 里 克 。 拉 希 德 (Rick Rashid) 在 2012 年 10 月 25 日 于 中 国 天 津 
举行 的 一 场 活动 中 ， 使 用 深度 学 习 进 行 了 自动 语音 识别 的 现场 演示 。 在 2000 名 中 国 
观众 面前 ， 拉 希 德 说 的 英文 被 自动 化 系统 识别 ， 先 在 他 的 屏幕 图 像 下 方 显示 出 英文 
人 

这 一 突破 性 成 果 将 在 之 后 的 几 年 逐渐 影响 我 们 的 社会 ， 计 算 机 键盘 
会 被 自然 语言 接口 取代 。 随 着 数字 助手 ， 如 亚马逊 的 Alexa、 苹 果 的 Siri 
以 及 微软 的 Cortana 先 后 进入 干 家 万 户 ， 这 种 取代 已 经 在 发 生 了 。 就 如 随 
着 个 人 电脑 的 普及 ， 打 字 机 退出 了 历史 舞台 ， 有 一 天 电脑 键盘 也 将 成 为 
博物 馆 的 展品 。 

当 语 音 识别 和 语言 翻译 结合 到 一 起 时 ， 实 时 的 跨 文化 交流 将 有 可 能 
实现 。《 星 际 迷航 》 中 那 种 万 能 翻译 机 将 触手 可 及 。 为 什么 计算 机 语音 
识别 和 语言 翻译 达到 人 类 的 水 平 要 花 这 人 么 久 的 时 间 ? 难道 计算 机 的 各 种 
认 知 能 力 同 时 进入 瓶 锋 期 仅仅 是 巧合 吗 ? 其 实 所 有 这 些 突破 都 源 于 大 数 


所 的 出 现 。 


AI 医疗 : 医学 诊断 将 更 加 准确 
深入 皮肤 


随 痢 机 器 学 习 的 成 熟 并 被 应 用 于 可 获取 大 数据 的 许多 其 他 问题 ， 服 
务 行业 和 其 相关 职业 也 将 发 生 转 变 。 基 于 数 百 万 患者 病情 记录 的 医学 诊 
断 将 变 得 更 加 淮 确 。 最 近 的 一 项 研究 将 深度 学 习 运 用 到 了 吉 括 超过 2000 
种 不 同 疾病 的 13 万 张 及 肤 病 学 图 像 中 ， 这 个 医学 数据 库 古 以 前 的 10 倍 大 
(1-5) 。 三 该 研究 的 网 络 被 训练 用 于 诊断 “测试 集 ”(testset， 它 从 未 
见 过 的 新 图 像 集 ) 中 的 各 种 疾病 。 它 在 新 图 像 上 的 诊断 表现 与 21 位 皮肤 
科 专 家 的 络 论 基本 一 致 ， 甚 至 在 茶 些 情况 下 还 要 更 准确 。 在 不 久 的 将 
来 ， 任 何 一 个 拥有 智能 手机 的 人 都 可 以 拍 下 疑似 皮肤 病变 的 照片 ， 并 立 
即 进行 诊断 一 一 而 现在 要 完成 同样 的 过 程 ， 我 们 需要 先 去 看 医生 ， 耐 心 
等 竺 病变 被 专家 得 得 出 来 ， 然 后 再 文 付 一 大 笔 账单 。 这 一 进步 将 大 大 打 - 
大 皮肤 病 护 理 的 范围 ， 提 升 护 理 质 量 。 如 果 个 体 可 以 很 快 得 到 专家 诊 
断 ， 他 们 会 在 皮肤 病 的 早期 阶段 ， 也 束 是 更 容易 治疗 的 时 候 就 开始 就 
医 。 借 助 深度 学 习 ， 所 有 的 医生 都 将 更 准确 地 诊断 罕见 的 皮肤 病 。 三 
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图 1-5 艺术 家 绘制 的 高 准确 度 诊断 皮肤 病变 的 深度 学 习 网 络 图 ，2017 年 2 月 2 日 《 自 
然 》 杂志 封面 。 


深入 癌症 


如 果 专 家 在 转移 性 乳腺 盖 的 淋巴 结 活检 切片 图 像 上 判断 错误 ， 就 有 
可 能 导致 致命 的 后 果 。 这 是 一 种 深度 学 习 擅 长 的 模式 识别 问题 。 实 际 
上 ， 一 个 经 过 大 量 结论 清晰 的 切片 数据 训练 出 来 的 深度 学 习 网 络 能 达到 
0.925 的 准确 度 ， 还 不 错 ， 但 还 不 及 人 类 专家 在 同一 测试 集 上 达到 的 
0.966. 三 然而 ， 把 深度 学 习 与 人 类 专家 的 预测 结合 起 来 ， 准 确 度 达 到 
了 0.995， 几 近 完 美 。 由 于 深度 学 习 网 络 和 人 类 专家 奏 看 相同 的 数据 的 
方式 不 同 ， 二 者 相 结 合 的 效果 比 单独 预测 要 好 。 这 样 一 来 ， 更 多 的 生命 
得 以 被 挽救 。 这 表明 在 未 来 ， 人 类 与 机 器 将 是 合作 而 非 苋 搜 的 关系 。 
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如 果 你 有 严重 的 睡眠 问题 70% 的 人 一 生 中 都 会 遇 到 这 个 问题 ) ， 
你 要 等 待 几 个 月 才能 见 到 你 的 医生 《除非 问题 十 分 紧急 ) ， 然 后 你 会 被 


转 到 一 个 睡眠 诊所 。 在 那里 ， 你 需要 在 号 上 接 几 十 个 能 在 你 入 睡 时 记录 
你 的 脑 电 图 CEEGO 和 肌肉 活动 的 电极 ， 接 受 彻 夜 观 察 。 每 个 晚上 ， 你 
会 先进 入 慢 波 睡眠 ， 然 后 定期 进入 快速 眼 动 (REM) 睡眠 ， 在 此 期 间 ， 
VK. BÆRI ERER BEER ATES AUBERGE DJEYPEG 
他 睡眠 障碍 会 干扰 这 种 睡眠 模式 。 如 果 你 在 家 里 就 很 难 入 睡 ， 那 么 在 一 
张 陌生 的 床上 ， 全 映 接 满 了 让 人 不 安 的 医疗 设备 进入 睡眠 状态 ， 绝 对 算 
得 上 真正 的 挑战 。 睡 眠 专家 会 查看 你 的 脑 电 图 记录 ， 以 30 秒 为 单位 标记 
睡眠 阶段 ， 一 段 8 小 时 的 睡眠 要 花 几 个 小 时 才能 标记 完 。 而 最 终 你 会 得 
到 一 份 有 关 睡 眠 模式 噶 第 情况 的 报告 ， 以 及 一 份 2000 美 元 的 账单 。 

依据 1968 年 由 安东尼 : 雷 希 特 施 分 (Anthony Rechtshaffen) 和 艾 伦 . 
FH (Alan Kales) 设计 的 系统 ， 睡 虐 专 家 将 接受 寻找 表征 不 同 睡 虐 
阶段 特征 迹象 的 培训 。 三 但 是 由 于 这 些 特征 常常 不 明确 ， 也 不 一 致 ， 只 
有 75% 的 情况 下 专家 们 能 在 数据 解 谈 上 达成 一 致 。 相 比 之 下 ， 我 实验 室 
之 前 的 一 名 研究 生 菲 利 普 : 洛 (Philip Low) 使 用 无 监督 机 器 学 习 ， 花 了 
不 到 一 分 钟 的 计算 机 运算 时 间 ， 以 3 秒 的 时 间 分 辨 率 上 自动 检测 睡眠 阶 
段 ， 和 879% 的 人 类 专家 达成 了 一 致 的 结论 。 此 外 ， 这 种 方式 只 需要 在 头 
部 的 单个 位 置 做 记录 ， 用 不 到 那些 触 点 和 接线 ， 也 节省 了 大 量 佩戴 和 摘 
除 的 时 间 。2007 年 ， 我 们 创立 了 一 家 公司 Neurovigil， 想 将 这 项 技术 引 
入 睡眠 诊所 ， 但 诊所 对 此 没有 表现 出 多 大 兴趣 ， 因 为 靠 人 力 标 注 能 产生 
更 多 的 现金 流 。 实 际 上 ， 依 据 保 险 号 向 患者 开具 账单 ， 会 让 诊所 没有 动 
机 采用 更 廉价 的 程序 。Neurovigil 在 大 型 制药 公司 发 现 了 另 一 个 市 场 ， 

这 些 公 司 在 开展 临床 试验 ， 需 要 测试 他 们 的 药物 对 睡眠 模式 的 影响 。 这 
项 技术 目前 正在 进入 长 期 护理 设施 市 场 ， 帮 助 解 决 在 老年 人 中 更 普 壳 的 
进行 性 睡眠 问题 。 

睡 虑 诊所 模式 是 存在 缺陷 的 ， 因 为 在 这 样 的 限制 条 件 下 不 能 可 靠 地 
诊断 出 健康 问题 ， 每 个 人 的 生理 基数 都 不 同 ， 而 偏离 这 个 基数 的 信息 最 
重要 。Neurovigil 已 经 有 了 一 个 小 型 设备 iBrain， 它 可 以 在 家 里 记录 你 的 
脑 电 图 信息 ， 将 数据 传 到 网 上 并 分 析 数 据 的 长 期 趋势 和 腊 剃 情况。 这 可 
以 帮助 医生 及 早 发 现 健康 问题 ， 在 恶化 前 及 时 干预 并 阻止 慢性 疾病 的 发 


展 。 其 他 很 多 疾病 的 治疗 也 将 受益 于 持续 监测 ， 如 1 型 糖尿 病 ， 血 糖水 
平 可 以 被 监测 并 通过 胰岛 素 进 行 调节 。 使 用 能 够 连续 记录 数据 的 廉价 传 
感 锋 正在 对 其 他 慢性 疾病 的 诊断 和 治疗 产生 重大 影 啊 。 


从 Neurovigil 的 发 展 过 程 中 可 以 看 出 : 第 一 ， 即 便 拥 有 更 好 更 廉价 
的 技术 ， 也 不 代表 能 轻易 地 将 其 转化 为 有 市 场 价值 ， 甚 至 更 优质 的 新 产 
品 或 服务 ;第 二 ， 当 现 有 产品 在 市 场 中 的 地 位 根深 蒂 固 ， 就 会 进一步 开 
发 出 深入 应 用 的 二 级 市 场 ， 可 以 让 新 技术 产生 更 直接 的 影响 ， 并 争取 时 
间 来 改进 ， 提 升 竞 争 力 。 太 阳 能 和 许多 其 他 新 兴 产 业 的 技术 就 是 这 样 进 
入 市 场 的 。 从 长 远 来 看 ， 已 被 证 实 共 有 优势 的 睡 虐 监测 和 新 技术 将 会 町 
六 到 家 中 的 患者 ， 并 最 终 融 入 医疗 实践 。 


金融 科技 : 利用 数据 和 算法 获取 最 佳 回报 


纽约 证 券 区 易 所 超过 75% 的 交易 都 是 自动 完成 的 《图 1-6) o, 
交易 能 在 几 分 之 一 秒 内 进出 仓位 。〔( 如 果 你 不 用 为 每 笔 交 易 支 付费 用 ， 
那么 即使 是 很 小 的 优势 也 能 带 来 巨额 利润 。) 更 长 时 间 范 围 内 的 算法 交 
易 会 考虑 到 基于 大 数据 的 长 期 趋势 。 深 度 学 习 在 赚钱 和 提高 利润 方面 做 
得 越 来 越 好 。 三 预测 金融 市 场 ， 问 题 在 于 数据 吐 洒 ， 条 件 不 稳定 一 一 
一 场 选 举 或 国际 冲突 可 能 会 导致 投资 者 心态 在 一 夜 之 间 发 生变 化 。 这 总 
味 痢 用 来 预测 今天 股票 价值 的 算法 可 能 到 明天 惑 不 准 了 。 在 实践 中 ， 被 
用 来 赚钱 的 算法 有 数 百 种 ， 表 现 突出 的 则 被 不 断 整 合 以 实现 最 优 回报 。 
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图 1-6 延迟 vs 头寸 持 有 时 间 。 在 线 机 器 学 习 正在 推动 算法 交易 ， 它 比 传统 的 长 期 投 
资 策略 更 快速 ， 比 股票 市 场 中 的 高 颍 交易 更 加 慎重 。 许 多 不 同类 型 的 机 器 学 习 算 法 
被 组 合 运 用 以 获得 最 佳 回报 。 
早 在 20 世 纪 80 年 代 ， 我 还 在 为 摩根 士 丹 利 的 股票 交易 神经 网 络 模型 

提供 咨询 时 ， 过 到 了 专门 设计 并 行 计算 机 的 计算 机 科学 家 大 卫 : 肖 
(David Shaw) 。 哥 伦比 亚 大 学 学 术 休假 期 间 ， 肖 曾 在 自动 化 交易 早期 
担任 量化 分 析 师 ， 随 后 他 在 华尔街 创立 了 目 己 的 投资 管理 公司 德 动 集团 
(The D. E. Shaw Group) ， 现 在 他 已 经 是 亿 万 富 全 了 。 德 功 集 团 非常 成 
功 ， 但 仍然 进 于 男 一 家 对 冲 基金 文艺 复兴 科技 公司 (Renaissance 
Technologies) 。 这 家 基金 是 由 杰出 的 数学 家 、 纽 约 州立 大 学 石 溪 分 校 
数学 系 前 主任 詹姆斯 西蒙 斯 (James Simons) 创立 的 。 仅 2016 年 ， 西 蒙 
斯 就 挣 了 16 亿 美元 ， 这 还 算 不 上 他 最 好 的 一 年 。 三 文艺 复兴 科技 被 称 
为 “世界 上 最 好 的 物理 和 数学 系 ，”=“ 它 不 会 军用 市 有 哪怕 一 点 点 华 尔 
街 正 统 味 道 的 人 ”。 =! 


不 再 参与 德 动 的 日 常 运营 后 ， 大 卫 . 肖 现在 专注 于 德 动 研究 所 CD. 


E. Shaw Research) 的 业务 ， 该 研究 所 搭建 了 一 台 名 为 “Anton” 的 专用 并 
行 计 算 机 ， 比 全 球 其 他 计算 机 执行 蛋白 质 折 县 的 速度 都 快 得 多 。 三 西蒙 
斯 退休 后 不 再 掌管 文艺 复兴 科技 ， 而 是 建立 了 资助 自 朵 症 及 其 他 物理 和 
生物 科学 项 目 研 究 的 基金 会 。 通 过 加 州 大 学 伯克利 分 校 的 西蒙 斯 计算 理 
论 研 究 所 (the Simons Institute for the Theory of Computing at UC 
Berkeley) 、 抹 省 理工 学 院 的 西蒙 斯 社会 大 脑 中 心 (the Simons Center 
for the Social Brain at MIT) MAAR- (the Flatiron Institute) ， 

西 家 斯 的 慈善 事业 对 推进 数据 分 析 、 建 模 和 仿真 的 计算 方法 产生 了 重大 


影响 。 D 


更 广泛 的 金融 服务 正在 金融 科技 Cfintech) 的 大 背景 下 发 生 大 规模 
转型 。 诸 如 区 块 链 这 样 的 信息 技术 一 一 ”一 种 安全 的 互联 网 记 账 方式 ， 
取代 了 金融 交易 的 中 间 商 一 一 正在 接受 小 规模 的 测试 ， 但 它 很 快 就 会 扰 
乱 价值 数 万 亿美 元 的 金融 市 场 。 机 器 学 习 正 在 被 用 于 改进 贷款 信用 评 
估 ， 准 确 地 提供 业务 和 财务 信息 ， 在 社交 媒体 上 获取 预测 市 场 趋势 的 信 
号 ， 并 为 金融 交易 提供 生物 识别 安全 服务 。 谁 拥有 最 多 的 数据 ， 谁 就 是 
顾家 ， 而 世界 上 充斥 着 财务 数据 。 


深度 法 律 : 效率 的 提高 与 沉 用 的 降低 


深度 学 习 刚刚 开始 影响 法 律 界 。 律 师 事 务 所 每 小 时 收费 数 百 美元 的 
法 务 助理 的 大 部 分 日 第 工作 都 将 实现 自动 化 ， 特 别 是 在 高 档 写字 楼 办 公 
的 规模 化 事务 所 里 。 具 体 点 说 ， 技 术 辅 助 审核 或 调查 将 被 人 工 智 能 接 
管 ， 它 可 以 浏览 数 千 份 文 件 以 获取 合法 证 据 ， 且 丝 坚 不 会 感到 厌倦 。 目 
动 化 深度 学 习 系 统 也 将 帮助 律师 事务 所 遵守 日 瘟 复 杂 的 政府 规定 。 这 些 
系统 将 为 现在 无 法 负担 律师 费用 的 普通 人 提供 法 律 建议 。 法 律 工作 不 仅 
收费 会 更 便宜 ， 也 会 更 局 效 ， 这 一 点 通 第 比 费 用 更 重要 。 法 律 世界 正在 
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TEM shoe: 当 机 咒 智能 学 会 了 虚 张 声势 


一 对 一 无 限 注 德州 扑克 是 最 受 欢 迎 的 扑克 玩法 之 一 ， 常 见于 赌场 ， 
无 限 注 投注 方式 则 通常 出 现在 世界 扑克 系列 赛 (World Series of Poker) 
的 主 赛事 中 。 扑 元 很 有 挑战 性 ， 因 为 与 国际 象棋 玩家 可 以 获得 相同 的 信 
恩 不 同 ， 扑 元 玩家 的 信息 不 完整 ， 而 且 在 最 高 级 别 的 比赛 中 ， 诈 喀 、 欺 
骗 的 技巧 和 拿 到 的 有 牌 一 样 重要 。 


数学 家 约翰 . 汉 : 诺 依 曼 (John von Neumann) 创立 了 数学 博弈 理 
论 ， 也 是 数字 计算 机 之 父 ， 他 就 对 扑 殉 特别 着 迷 。 他 说 过 : “现实 生活 
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意图 。 这 就 是 我 理论 中 博弈 的 内 涵 。” 三 扑克 是 一 种 博弈 ， 反 映 了 经 过 
进化 精炼 过 的 人 类 智能 的 一 部 分 。 一 个 名 为 “DeepStack” 的 深度 学 习 网 
络 和 33 名 职业 扑克 选手 进行 了 44852 场 比赛 。 令 扑克 专家 震惊 的 是 ， 它 
以 相当 大 的 优势 ， 一 个 标准 差 ， 击败 了 最 出 色 的 扑克 玩家 ， 同 时 以 四 个 
标准 差 在 整体 上 击败 了 全 部 33 名 玩家 一 一 多 人 么 巨大 的 差距 《〈 见 图 二 - 

7) 。 一 如 果 这 一 成 瑟 能 复制 到 其 他 基于 不 完全 信息 、 需 要 人 来 做 判断 
的 重要 领域 ， 比 如 政治 学 和 国际 关系 ， 其 影响 可 能 是 极其 深远 鸭 。 三 
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图 1-7 一 对 一 无 限 注 德州 扑克 。 强 执 手 牌 。DeepStack 已 经 掌握 了 如 何在 高 筹码 扑克 
中 虚 张 声势， 以 大 比分 优势 击败 职业 扑克 玩家 。 


AlphaGo 奇 迹 : 神经 科学 与 人 工 智 能 的 协同 


2016 年 3 月 ， 韩 国 围棋 界 18 次 世界 冠军 获得 者 李 世 石 《Lee Sedol) 
与 DeepMind 公 司 的 AlphaGo (图 1-8) 一 个 使 用 深度 学 习 网 络 评估 
盘面 形势 和 可 能 的 走 法 的 于 棋 程 序 一 一 进行 了 5 场 比赛 。 三 围棋 相对 国 
际 象棋 的 难度 ， 相 当 于 国际 象棋 对 跳棋 的 难度 。 如 宁国 际 象棋 是 一 场 战 
役 ， 那 么 围棋 就 是 一 场 战争 。 一 块 19x19 围 棋 棋 盘 比 一 块 8x8 象 棋 棋 盘 大 
得 多 ， 这 使 得 在 棋盘 的 不 同 部 分 可 能 同时 发 生 多 场 战役 。 不 同 战役 之 间 
存在 长 期 的 相互 作用 ， 即 使 是 专家 也 难以 判断 。 围 棋 的 合法 棋局 总 数 是 
1017"， 远 远 超 过 宇宙 中 的 原子 数量 。 


AlphaGo 


Google DeepMind 


图 1-8 韩国 围棋 冠军 李 世 石 对 战 AlphaGo 的 5 场 比赛 里 ， 某 一 场 战 局 中 的 棋盘 。 
AlphaGo 是 一 个 通过 与 自己 下 围棋 来 学 习 的 深度 学 习 神 经 网 络 。 

除了 几 个 评 佑 盘 局 并 选择 最 佳 痢 数 的 深度 学 习 网 络 ，AlphaGo 还 有 
一 个 完全 不 同 的 学 习 系 统 ， 用 于 解决 时 间 信 用 分 配 问题 : 在 众多 步 棋 
中 ， 哪 一 步 对 话 得 胜利 有 所 贡献 ， 哪 一 步 对 失败 承担 贡 任 ?大脑 的 基底 
神经 节 接 收 来 自 整 个 大 脑 皮 层 的 投 映 ， 并 投射 回去 ， 利 用 时 间 差 分 算法 
和 强化 学 习 来 解决 这 个 问题 。AlphaGo 使 用 由 基底 神经 节 进 化 出 来 的 相 
同 的 学 习 算法 ， 以 评估 最 大 化 未 来 奖励 的 行动 顺序 〈 这 一 过 程 将 在 第 10 
章 中 做 出 解释 ) 。AlphaGo 通 过 反复 和 自己 下 棋 来 学 习 这 一 技能 。 

AlphaGo 和 李 世 石 对 决 的 围棋 比赛 在 亚洲 得 到 了 极 高 的 关注 。 在 亚 
洲 ， 围 棋 冠 军 是 全 国 性 的 公众 人 物 ， 有 着 摇滚 明星 一 样 的 待遇 。 
AlphaGo 早 些 时 候 击败 了 欧洲 的 围棋 冠军 ， 但 是 那 场 比赛 的 水 平 远 低 于 
亚洲 的 最 高 水 平 ， 因 此 李 世 石 并 没有 做 好 打 一 场 便 仗 的 心理 准备 。 即 使 
是 开发 AlphaGo 的 公司 DeepMind， 也 并 不 清楚 他 们 的 深度 学 习 程序 到 底 
有 多 强大 。 自 上 一 场 比赛 以 来 ，AlphaGo 已 经 与 好 几 个 版 本 的 自己 下 了 
数 百 万 局 的 模 ， 然 而 并 没有 任何 标准 来 判断 它 的 水 平 到 底 达 到 了 何 种 高 
度 。 


AlphaGo 电 得 了 5 场 比赛 的 前 3 场 后 ， 许 多 人 孝感 到 十 分 震 恢 ， 因 为 
它 展现 出 了 让 人 意 想 不 到 的 高 水 准 。 这 项 比赛 在 韩国 有 很 高 的 关注 度 ， 
所 有 的 主流 电视 台 都 对 比赛 进行 了 实况 报道 。AlphaGo 有 一 些 着 数 是 单 
命 性 的 。 在 第 二 场 比 赛 的 第 三 十 八 步 ，AlphaGo 下 出 了 精彩 的 一 着 ， 让 
李 世 石 感到 十 分 惊讶 ， 他 花 了 将 近 10 分 钟 的 时 间 才 诀 定 下 一 步 要 怎么 
走 。AlphaGo 输 掉 了 第 四 场 比赛 ， 这 是 人 类 挽回 颜面 的 一 场 胜 利 ， 最 终 
它 的 战绩 是 4 胜 1 负 (图 1-9〉 . 3H RRE, FTES KAN Be XB 
劲 地 观看 了 这 场 较量 。 这 让 我 回想 起 1966 年 6 月 2 日 座 晨 1 点 ， 我 在 克利 
夫 兰 市 ， 坐 在 电视 机 和 劳 关 注 着 “勘测 者 1 号 ?探测 器 降落 在 月 球 上 ， 并 传 
回 了 第 一 张 月 球 照 请。 三 我 茉 眼见 证 了 这 些 历史 时 刻 。AlphaGo 的 表现 
远 远 超出 了 我 和 其 他 许多 人 的 期 待 。 


图 1-9 在 2016 年 3 月 的 围棋 挑战 赛 中 输 给 了 AlphaGo 之 后 的 李 世 石 。 

2017 年 1 月 4 日 ， 一 个 名 为 “Master” 的 选手 在 一 个 网 络 围 棋 服 务 器 上 
主动 现 身 ， 其 真正 身份 是 AlphaGo 2.0。 在 此 之 前 ， 它 在 与 世界 顶尖 棋 手 
的 比赛 中 取得 了 60 场 全 胜 的 战绩 ， 被 击败 的 棋 手 中 包括 当时 世界 排名 第 
一 的 高 手 ，19 岁 天 才 棋 手 柯 洁 。AlphaGo 显 露出 了 一 种 能 与 同时 代 的 佼 


佼 者 抗衡 的 全 新 风格 。2017 年 5 月 27 日 ， 在 中 国 乌镇 举办 的 围棋 峰会 
上 ， 柯 洁 以 3 场 皆 负 的 结果 输 给 了 AlphaGo 〈 见 图 1-10) 。 这 是 有 史 以 来 
最 精彩 的 几 场 围棋 比赛 ， 数 亿 中 国人 都 观看 了 该 赛事 。“ 去 年 ， 我 还 觉 
得 AlphaGo 的 表现 与 人 类 非常 接近 ， 但 今天 我 认为 它 是 ‘围棋 之 神 '*。” 柯 
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在 第 一 场 比赛 中 ， 他 以 一 目 半 的 微弱 差距 输 掉 了 比赛 。 柯 洁 说 
他 “在 比赛 中 途 已 经 感觉 快要 赢 了 ”。 他 非常 兴奋 : “我 能 感觉 到 自己 的 
AEE PEFEELBE! 可 能 因为 我 太 兴奋 ， 有 几 步 棋 走 错 了 。 也 许 这 就 是 人 
类 棋 手 最 薄弱 的 部 分 吧 。” 三 柯 洁 经 历 了 一 种 情绪 上 的 超 负荷 ， 但 要 达 
到 最 佳 状态 ， 更 需要 相对 沉稳 的 情绪 。 事 实 上 ， 舞 台 演 员 们 都 知道 ， 如 
果 他 们 演出 前 没有 胃 里 翻 江 倒 海 的 紧张 感 ， 就 无 法 呈现 出 最 精彩 的 演 
出 。 他 们 的 表演 遵循 一 种 倒 U 形 曲线 ， 即 最 佳 状态 处 于 较 低 和 较 高 的 兴 
奋 点 之 间 。 运 动员 把 这 叫 作 “在 状态 ”。 
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图 1-10 2017 年 在 中 国 ，DeepMind 的 联合 创始 人 兼 CE0 德 米 斯 。 哈 萨 比 斯 (Demis 
Hassabis， 左 ) 和 柯 洁 在 历史 性 的 围棋 比赛 结束 后 会 面 ， 共 同 展示 带 有 柯 洁 签名 的 


棋盘 。 图 片 来 源 : 德 米 斯 。 哈 萨 比 斯。 

2017 年 5 月 26 日 ，AlphaGo 还 击败 了 由 5 名 顶尖 棋 手 组 成 的 队伍 。 这 
些 棋 手 都 分 析 过 AlphaGo 的 招数 ， 并 已 经 在 相应 地 改变 自己 的 策略 。 这 
场 比赛 由 中 国政 府 主办 ， 可 以 说 是 一 个 新 版 的 “乒乓 外 交 ”。 三 中 国正 在 
机 器 学 习 方 面 投入 大 量 资金 ， 其 大 脑 研究 计划 的 一 个 主要 目标 是 挖掘 大 
脑 潜能 来 创造 新 的 算法 。 三 

该 围棋 事件 后 续 的 发 展 可 能 会 更 令 人 惊叹 。 在 开始 跟 自 己 下 棋 之 
前 ，AlphaGo 是 通过 观察 学 习 16 万 次 人 类 围棋 比赛 起 步 上 的 。 有 人 认为 这 
是 作弊 一 一 个 自主 的 AI 程序 应 该 能 够 在 没有 积累 任何 人 类 知识 的 条 件 
下 学 习 下 围棋 。2017 年 10 月 ， 一 款 名 为 AlphaGo Zero 的 新 版 本 AI 程序 面 
世 了 。 它 从 游戏 规则 开始 一 步 步 学 习 下 围棋 ， 击 败 了 曾 战 胜 柯 洁 的 版 本 
AlphaGo Master， 战 绩 为 100 : 0。 三 此 外 ，AlphaGo Zero 的 学 习 速 度 比 
AlphaGo Master 快 100 倍 ， 而 计算 能 力 差 不 多 只 有 后 者 的 10。 完 全 忽略 
人 类 的 知识 ，AlphaGo Zero 变 成 了 无 敌 超 人 。 随 着 机 器 学 习 算 法 的 不 断 
进步 ，AlphaGo 还 会 变 得 多 么 优秀 ， 并 没有 已 知 的 上 限 。 


AlphaGo Zero 虽 然 没 有 和 人 下 棋 ， 但 仍然 有 许多 围棋 知识 被 人 为 添 
加 到 程序 中 强化 棋艺 的 特征 。 如 果 没 有 任何 围棋 知识 ，AlphaGo Zero 也 
许 仍 有 进一步 改进 的 空间 。 残 像 零度 可 乐 将 可 口 可 乐 里 所 有 的 热量 分 离 
出 来 一 样 ， 围 模 的 所 有 知识 都 被 从 Alpha Zero 中 剥离 出 来 。 结果 ，Alpha 
Zero 能 够 更 快 、 更 果断 地 打败 AljphaGo Zero. — 73g f 3t—2» VL BH ^b jl 
是 多 ”，Alpha Zero 在 没有 改变 任何 一 个 学 习 参 数 的 情况 下 ， 学 会 了 如 何 
以 超人 的 水 准 下 国际 象棋 ， 还 创造 了 人 类 从 未 使 用 过 的 着 数 。 在 与 
Stockfish 这 个 已 经 是 超人 级 别 的 顶级 国际 象棋 程序 的 对 决 中 ，Alpha 
Zero 还 没有 输 过 。 在 一 场 比 赛 中 ，Alpha _ Zero 大胆 地 牺牲 了 一 个 象 一 一 
这 种 做 法 通常 用 来 获得 位 置 上 的 优势 ， 随 后 又 牺牲 了 王后 ， 这 一 步 看 起 
KZN SEJL HAZM, Alpha Zero 冷 不 防 将 了 一 盏 ， 无 
论 是 Stockfish 还 是 人 类 棋 手 都 没 能 预见 到 这 样 的 结果 。 外 星人 已 经 着 
陆 ， 地 球 从 此 要 改头换面 了 。 


AlphaGo 的 开发 者 DeepMind 于 2010 年 由 神经 学 家 德 米 斯 . 哈 萨 比 斯 
参与 创立 ， 他 曾 在 伦敦 大 学 学 院 的 再 次 比 计 算 神 经 科学 部 门 
(University College London’s Gatsby Computational Neuroscience Unit) 
担任 博士 后 研究 员 。 访 部门 由 彼得 : 达 扬 (Peter Dayan) 领导 ， 达 扬 
是 我 实验 室 的 博士 后 研究 员 ，2017 年 和 雷 蒙 德 :多 兰 〈Raymond Dolan) 
以 及 沃 尔 夫 拉 姆 . 舒 尔 蒋 (Wolfram Schultz) 共同 获得 了 享有 盛誉 的 “大 
Wi” (Brain Prize) ， 以 表彰 他 们 在 奖励 学 习 方 面 的 研究 。 谷 歌 在 2014 
年 以 6 亿美 元 的 价格 收购 了 DeepMind。 该 公司 雇用 了 400 多 名 工程 师 和 
神经 科学 家 ， 拥 有 学 术 界 和 创业 公司 混合 的 双重 文化 。 神 经 科学 与 人 工 
智能 之 间 的 协同 作用 日 渐 深入 ， 而 且 还 在 加 速 。 


弗 林 效应 : 深度 学 习 让 人 类 更 加 智能 


AlphaGo 有 智力 吗 ? 除了 “意识 ”这 个 主题 ， 关 于 智力 的 文章 比 心理 
学 中 任何 其 他 主题 都 要 多 得 多 ， 这 两 个 概念 都 很 难 界定 。 上 自 20 世 纪 30 年 
代 以 来 ， 心 理学 家 就 对 流体 智力 和 晶体 智力 进行 了 区 分 一 流体 智力 能 
够 将 新 条 件 中 的 推理 和 模式 识别 用 于 解决 新 问题 ， 而 不 依赖 于 以 前 的 知 
WR: 晶体 智力 则 依赖 于 先前 的 知识 ， 也 是 标准 智商 测试 〈 即 IQ 测 试 ) 的 
对 象 。 流 体 智 力 遵循 一 种 抛物 线 式 发 展 轨迹 ， 在 成 年 早期 达到 高 峰 ， 并 
随 着 年 龄 的 增长 逐渐 下 降 ， 而 品 体 智力 会 随 年 龄 的 增长 ， 缓 慢 渐进 式 地 
提高 ， 直 至 暮年 。AlphaGo 只 在 一 个 相当 狭窄 的 领域 同时 展现 出 了 晶体 
智力 和 流体 智力 ， 但 在 这 个 领域 ， 它 表现 出 了 令 人 惊讶 的 创造 力 。 专 业 
知识 的 获取 也 是 基于 在 狭 罕 领域 的 学 习 。 我 们 都 是 语言 领域 的 专家 ， 每 
天 都 在 使 用 语言 。 

AlphaGo 使 用 的 强化 学 习 算法 可 以 被 用 来 解决 许多 问题 。 这 种 形式 
的 学 习 只 取决 于 在 一 系列 动作 结束 时 给 予 获胜 者 的 奖励 ， 这 似乎 和 提前 
做 出 更 好 的 决策 相 矛 盾 。 结 合 了 许多 强大 的 深度 学 习 网 络 ， 了 就 会 生成 许 
多 领域 相关 的 智能 。 而 且 事实 上 ， 已 经 出 现 了 与 领域 相关 的 不 同类 型 智 


能 ， 例 如 社会 、 情 感 、 机 械 和 建筑 等 的 案例 。 三 智力 测试 测量 的 一 般 因 
% (general factor， 人 简称 g 因 素 ) 与 这 些 不 同类 型 相关 。 我 们 有 理由 认真 
审视 IQ 测 试 。 自 20 世 纪 30 年 代 首 次 测试 智力 以 来 ， 全 人 类 平均 的 IQ 分 数 
每 10 年 会 上 升 三 个 点 ， 这 一 趋势 被 称 为 “ 弗 林 效 应 ”(Flynn effect) 。 对 
于 弗 林 效应 有 许多 可 能 的 解释 ， 比 如 更 充足 的 营养 、 更 完善 的 医疗 体 
系 ， 以 及 其 他 环境 因素 。 三 这 很 有 这 理 ， 因 为 环境 会 影响 基因 调控 ， 从 
影响 大 脑 内 在 的 连接 ， 行 为 也 会 随 之 发 生变 化 。 三 随 着 人 类 越 来 越 多 
地 生活 在 人 造 环境 中 ， 大 脑 正 在 以 某 种 超越 自然 进化 轨道 的 方式 被 塑 
造 。 在 更 长 的 时 间 内 ， 人 类 是 否 能 一 直 都 在 变 得 更 聪明 ?” 智商 增长 会 持 
ELA? 用 电脑 玩 国际 象棋 、 西 洋 双 陆 棋 和 围棋 的 人 数目 计算 机 程序 达 
到 冠军 级 别 后 一 直 在 稳步 增加 ， 而 机 器 也 强化 了 人 类 玩家 的 智能 。 YA 
度 学 习 提 升 的 将 不 仅仅 是 科学 研究 人 员 的 智能 ， 还 包括 所 有 行业 从 业 人 
员 的 智能 。 

科学 仪器 正 以 惊人 的 速度 产生 数据 。 位 于 日 内 瓦 的 大 型 强 子 对 撞 机 
(LHC) 中 发 生 的 基本 粒子 磁 撞 每 年 产生 25PB CIPB-1000TBO 的 数 
据 。 大 型 综合 巡天 望远镜 (LSST) 每 年 将 产生 6PB 的 数据 。 机 器 学 习 正 
被 用 于 分 析 庞 大 的 物理 和 天 文 数 据 集 ， 其 规模 之 浩大 让 人 类 根本 无 法 通 
过 传统 方法 进行 搜索 。 三 例如 ，DeepLensing 是 一 种 神经 网 络 ， 可 以 识 
别 遥 远 星 系 的 图 像 。 这 些 图 像 由 于 光 在 传播 中 因 围 经 周边 星系 的 “引力 
透镜 ”造成 的 光路 偶 折 而 被 扭曲 了 。 这 一 技术 可 以 上 自动 发 现 许 多 遥远 的 
新 星系 。 物 理学 和 天 文学 中 还 有 许多 其 他 类 似 “ 大 海 搞 针 ” 的 问题 ， 而 深 
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新 教育 体系 : 每 个 人 都 需要 终身 学 习 


银行 在 20 世 纪 60 年 代 后 期 推出 了 面向 银行 账户 持 有 人 的 全 天 候 现 金 
提取 服务 ， 这 对 于 那些 在 银行 正常 营业 时 间 之 外 需要 现金 的 人 来 说 非常 
方便 ， 自 动 提 球 机 CATMO 从 此 获得 了 阅读 手写 文 办 的 能 力 。 尺 管 它 


们 的 存在 减少 了 银行 柜员 的 日 营 工 作 量 ， 但 有 越 来 越 多 的 柜员 为 客户 提 
供 按揭 和 投资 建议 等 个 性 化 服务 ， 同 时 也 出 现 了 维修 ATM 的 新 工种 。 
三 就 如 一 方面 ， 花 汽机 代 蔡 了 体力 劳动 者 ， 但 为 一 方面 ， 这 为 能 够 建造 
和 维护 蒸汽 机 及 驱动 蒸汽 机 车 的 熟练 工人 提供 了 新 的 就 业 机 会 。 亚 马 过 
的 在 线 营销 也 将 许多 员工 从 当地 实体 零售 店 中 迁移 出 来 ， 但 同时 也 为 分 
配 和 运输 其 商品 ， 以 及 许多 使 用 其 平台 的 企业 创造 了 38 万 个 新 的 工作 机 
会 。 三 由 于 现在 需要 人 类 认 知 技能 的 工作 被 目 动 化 人 工 智能 系统 所 接 
管 ， 那 些 能 够 创建 和 维护 这 些 系 统 的 人 将 会 获得 新 的 工作 。 


工作 变动 不 是 什么 新 鲜 事 。19 世 纪 ， 农 场 劳工 被 机 器 取代 ， 机 器 也 
在 城市 工厂 创造 了 新 的 工作 机 会 ， 所 有 这 些 都 需要 一 个 教育 系统 来 培训 
工人 新 的 技能 。 不 同 之 处 在 于 ， 今 天 ， 由 人 工 智 能 开辟 的 新 职位 除了 需 
要 传统 的 认 知 技能 之 外 ， 还 需要 新 的 、 不 同 的 、 不 断 变化 的 技能 。 三 所 
以 我 们 都 需要 终身 学 习 。 要 做 到 这 一 点 ， 我 们 需要 一 个 以 家 性， 而 不 是 
以 学 校 为 基础 的 新 教育 体系 。 

洱 运 的 是 ， 就 像 寻找 新 工作 的 需求 变 得 迫在眉睫 一 样 ， 互 联网 上 免 
费 的 大 规模 开放 式 在 线 课程 莫 课 (MOOCs) 也 应 运 而 生 ， 来 帮助 人 们 
获取 新 的 知识 和 技能 。 虽 然 仍 处 于 初级 阶段 ， 但 聚 课 的 在 线 教 育 生 态 系 
统 正在 迅速 发 展 ， 并 在 为 更 广泛 的 人 群 提供 前 所 未 有 的 优质 教学 。 与 下 
一 代数 字 辅 助 系统 相 结 合 ， 和 聚 课 则 可 能 会 市 来 变革 。 芭 芭 拉 : 奥 元 利 
(Barbara Oakley) 和 我 开设 了 一 门 名 为 “学 会 如 何 学 习 ”(Learning How 
to Learn) 的 么 课 一 一 该 热门 读 程 会 教 你 如 何 成 为 更 好 的 学 习 者 〈 见 图 
1-11) 一 一 以 及 一 门 名 为 "思维 转换 ”(Mindshift) Wack, ZU IRI ok 
造 自己 并 改变 你 的 生活 方式 (这 两 门 课 将 在 第 12 间 中 详细 介绍 )。 


Learning 
How to Learn 


图 1-11 “学 会 如 何 学 习 ” 教 你 如 何 成 为 更 好 的 学 习 者 ， 它 是 互联 网 上 最 受 欢迎 的 慕 
课 ， 拥 有 超过 300 万 学 习 者 。 

进行 网 上 操作 时 ， 其 实 正在 生成 机 器 可 读 的 关于 你 自己 的 大 数据 。 
根据 你 在 互联 网 上 行为 的 蛛丝马迹 ， 你 正在 被 自动 生成 的 相关 广告 定 
位 。 你 在 Facebook〔 脸 谱 网 ) 和 其 他 社交 媒体 网 站 上 发 布 的 信息 可 被 用 
于 创建 数字 助理 ， 它 几乎 比 世 界 上 任何 其 他 人 都 更 了 解 你 ， 并 且 不 会 遗 
漏 任 何 内 容 ， 实 际 上 就 相当 于 你 的 虚拟 分 号 。 通 过 将 互联 网 跟踪 和 深度 
学 习 都 纳入 服务 ， 现 在 这 些 孩 子 的 后 代 拥 有 的 教育 机 会 将 比 今天 军 裕 家 
庭 拥有 的 最 优质 的 教育 机 会 还 要 好 。 这 些 孙 辈 将 拥有 自己 的 数字 导师 ， 
导师 将 在 整个 教育 过 程 中 陪伴 他 们 。 教 育 不 仅 会 变 得 更 加 个 性 化 ， 也 会 
变 得 更 加 精准 。 世 界 各 地 已 经 开展 了 各 种 各 样 的 教育 实验 ， 例 如 可 汗 学 
院 ， 由 盖 次 基金 会 、 陈 - 扎 元 伯 格 基金 会 和 其 他 慈善 基金 会 资助 。 这 些 
实验 机 构 正 在 测试 软件 ， 以 便 让 所 有 的 孩子 都 可 以 根据 目 己 的 节奏 进 
步 ， 并 适应 每 个 儿童 的 特定 需求 。 三 数字 导师 的 普及 将 使 教师 从 教学 中 
的 重复 劳动 ， 如 评分 中 解 胶 出 来 ， 专 注 于 人 类 最 擅长 的 事情 一 一 对 学 习 
困难 的 学 生 提 供 精 神 文 持 ， 并 给 予 有 天 赋 的 学 生灵 感 局 发。 教育 技术 
(Edtech) 正在 快速 发 展 ， 与 自动 要 驶 汽车 相 比 ， 传 统 教育 癌 精 准 教育 
过 渡 的 速度 可 能 相当 快 ， 因 为 它 必须 克服 的 障碍 要 小 得 多 ， 需 求 却 要 大 
得 多 ， 而 且 美国 的 教育 是 一 个 万 亿美 元 的 市 场 。 三 一 个 主要 的 问题 就 
是 ， 谁 能 够 访问 数字 助理 和 数字 导师 的 内 部 文件 。 


正面 影响 : 新 兴 技 术 不 是 生存 威胁 


AlphaGo 在 2016 年 训 无 争议 地 击败 了 李 世 石 ， 这 激化 了 过 去 知 干 年 
引发 的 人 工 智 能 可 能 给 人 类 带 来 威胁 的 担忧 。 计 算 机 科学 家 签署 了 不 会 
将 AI 用 于 军事 目的 的 承诺 协议 。 斯 带 芬 :霍金 (Stephen Hawking) 和 比 
I (Bil Gates) 公开 发表 声明 ， 警 告 人 工 智 能 可 能 对 人 类 造成 的 
生存 威胁 。 伊 隆 : 马 斯 克 CElon Musk) 和 其 他 硅谷 企业 家 成 立 了 一 家 新 
公司 OpenAI， 拥 有 10 亿 美元 储备 金 ， 并 聘请 了 杰 弗 里 . 泣 顿 之 前 的 一 名 
学 生 伊利 娅 . 苏 特 斯 科 娃 CIlya Sutskever) 担任 第 一 任 总 监 。 虽 然 
OpenAI 的 既定 目标 是 确保 未 来 人 工 智 能 的 发 现 将 公开 供 所 有 人 使 用 ， 

但 它 还 有 男 一 个 隐 含 的 更 重要 的 目标 : 防止 私人 公司 作恶 。AlphaGo 战 
胜 了 围棋 世界 冠军 李 世 石 ， 一 个 临界 点 也 随 之 到 来 。 几 平 在 一 夜 之 间 ， 
人 工 智 能 从 一 项 失败 的 技术 ， 转 变 成 了 可 感知 的 生存 威胁 。 

一 种 新 兴 技 术 被 看 作 生 存 威胁 ， 这 已 经 不 是 第 一 次 了 。 核 武器 的 发 
明 、 改 进 和 储存 曾经 是 一 种 毁灭 全 世界 的 威胁 ， 但 至 少 到 目前 为 止 ， 我 
们 有 能 力 阻 止 这 种 情况 的 发 生 。 重 组 DNA 技 术 刚 问世 的 时 候 ， 人 们 担心 
经 人 工 改 造 的 致命 生物 会 从 实验 室 逃 出 来 ， 导 致 全 球 范 围 内 出 现 难 以 估 
量 的 痛苦 和 和 死亡。 基因 工程 现在 已 经 是 一 项 成 熟 的 技术 ， 目 前 我 们 已 经 
能 和 它 的 产物 共存 。 与 核武 器 和 致命 生物 相 比 ， 机 器 学 习 的 最 新 进展 构 
成 的 威胁 相对 较 小 。 我 们 也 将 适应 人 工 智 能 。 事 实 上 ， 这 已 经 在 发 生 
ls 


DeepStack 的 成 功 带 来 的 其 中 一 个 暗示 是 ， 深 度 学 习 网 络 可 以 学 习 
如 何 成 为 世界 顶级 的 骗子 。 训 练 深层 网 络 能 干什么 只 受 限 于 训练 者 的 想 
象 力 和 数据 。 如 果 一 个 网 络 可 以 接受 安全 驾驶 汽车 的 训练 ， 那 么 它 也 可 
以 被 训练 驾驶 F 1 客车 ， 很 可 能 有 人 愿意 为 此 掏腰包 。 今 天 ， 我 们 仍然 
需要 技术 娴熟 和 训练 有 素 的 从 业 人 员 使 用 深度 学 习 来 搭建 产品 和 服务 ， 
但 随 着 计算 能 力 的 成 本 持续 下 降 、 软 件 功 能 更 加 自动 化 ， 很 快 ， 蜗 中 生 
束 可 能 具备 开发 AI 应 用 程序 的 能 力 了 。 作 为 德国 收入 最 高 的 在 线 电 子 丙 


FAF), XH Otto) 主要 经 营 服装 、 家 居 和 体育 用 品 。 它 正在 利用 深 
度 学 习 ， 根 据 历史 订单 信息 预测 客户 未 来 可 能 购买 的 产品 ， 并 提前 为 他 
们 下 单 。 三 客户 几乎 在 订购 前 就 收 到 了 自己 想 订 购 的 商品 ， 准 确 率 达 到 
90%. 自动 完成 工作 且 无 顷 人 工 干 预 ， 这 种 预订 操作 不 仅 可 以 每 年 为 公 
司 在 剩余 库存 和 退货 环节 节省 数 百 万 欧元 ， 还 提高 了 客户 满意 度 和 保有 
率 。 深 度 学 习 显 著 提 高 了 奥 托 公司 的 生产 力 ， 却 并 没有 取代 它 的 工人 。 
人 工 智能 可 以 让 你 在 工作 中 更 高 效 。 

虽然 主要 的 高 科技 公司 开拓 了 深度 学 习 的 应 用 ， 但 机 器 学 习 工 具 已 
经 普 裔 存在 了 ， 许 多 其 他 公司 也 开始 从 中 受益 。Alexa 是 一 个 广 受 欢迎 
的 数字 助理 ， 与 亚马逊 Echo 智能 音箱 配合 使 用 ， 能 够 基于 深度 学 习 对 上 自 
然 语 言 发 出 的 请 求 做 出 回应 。 亚 马 逊 网 络 服务 CAWS) 引入 了 名 
为 “Lex”、“Poly” 和 “Comprehend” 的 工具 箱 ， 可 以 分 别 基于 上 自动 化 文 
字 、 语 音 转换 、 语 音 识 别 和 自然 语言 理解 ， 方 便 地 开发 相同 的 自然 语言 
界面 。 上 共有 对 话 交 互 能 力 的 应 用 程序 现在 可 供 无 力 雇用 机 器 学 习 专 家 的 
小 型 企业 使 用 。 企 业 通 过 应 用 这 一 程序 可 以 提高 客户 满意 度 。 


当 最 好 的 人 类 棋 手 在 计算 机 程序 面前 都 黯然 失色 时 ， 人 类 会 不 再 下 
Bi? IEF, ACLS Bez HEARN SBOE, ThE re ie FO 
大 众 化 。 顶 级 的 国际 象棋 选手 曾经 都 来 自 英 斯 科 和 纽约 等 大 城市 。 这 些 
地 方 大 师 云集 ， 可 以 教授 年 轻 棋 手 并 提高 他 们 的 技能 水 平 。 国 际 象棋 电 
脑 程序 使 得 在 挪威 小 镇 长 大 的 马 格 努 斯 -卡尔 森 (Magnus Carlson) 132 
就 成 为 国际 象棋 大 师 ， 如 今 他 已 是 世界 国际 象棋 冠军 。 人 工 智能 不 仅 对 
游戏 产生 了 正面 的 影响 ， 更 会 推动 人 类 付 诸 努 力 的 各 个 方面 ， 从 艺术 到 
科学 。AI 可 以 让 你 变 得 更 聪明 。" 福 


回 到 未 来 : 当 人 类 智能 过 到 人 工 智能 


本 书 有 两 个 相互 交织 的 主题 : 人 类 鲁能 是 如 何 进 化 的 ， 以 及 人 工 知 
能 会 如 何 演变 。 这 两 种 智能 之 间 的 巨大 差异 在 于 ， 人 类 智能 的 进化 经 历 


了 数 百 万 年 的 时 间 ， 而 人 工 智 能 在 最 近 几 十 年 才 发 展 起 来 。 尽 管 对 于 文 
化 演变 来 说 ， 这 个 速度 仍然 是 快 得 出 奇 ， 但 是 过 于 说 小 避 微 可 能 并 不 是 
个 正确 的 选择 。 

深度 学 习 在 近期 取得 的 突破 ， 并 不 是 你 从 新 闻 报 道中 读 到 的 那 种 一 
夜 成 功 。 从 基于 和 符号、 逻辑 和 规则 的 人 工 智能 回 基 于 大 数据 和 学 习 算 法 
的 深度 学 习 网 络 的 转变 ， 其 背后 的 故事 通常 并 不 为 人 所 熟知 。 本 书 介绍 
了 这 个 故事 ， 并 从 我 的 角度 探讨 了 深度 学 习 的 起 源 和 成 果 。 作 为 20 世 纪 
80 年 代 开 发 神经 网 络 学 习 算 法 的 先行 者 和 NIPS 基 金 会 的 主席 ， 我 杀 吴 经 
历 了 过 去 30 年 机 器 学 习 和 深度 学 习 的 发 展 过 程 。 我 和 同 在 神经 网 络 领 域 
的 同事 多 年 来 部 未 能 取得 令 人 瞩目 的 成 就 ， 但 坚持 和 耐心 最 终 给 我 们 种 
来 了 回报 。 
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02 
人 工 知 能 的 重生 


马 文 : 明 斯 基 是 一 位 杰出 的 数学 家 ， 也 是 肝 省 理工 学 院 人 工 入 能 实 
验 室 ( 以 下 简称 MIT AI Lab) 三 的 创始 人 之 一 。 创 始 团队 确定 了 这 个 领 
域 的 方向 和 文化 。 厅 省 理工 学 院 的 人 工 知 能 研究 在 20 世 纪 60 年 代 成 了 聪 
明 人 的 阵地 ， 这 在 很 大 程度 上 要 归功 于 明 斯 基 。 他 每 分 钟 冒 出 的 新 皮子 
比 我 认识 的 任何 人 都 多 ， 而 且 能 让 你 相信 他 对 一 个 问题 的 看 法 是 对 的 ， 
尽管 这 个 看 法 会 让 人 觉得 有 悖 常识 。 我 很 钦佩 他 的 大 胆 和 上 蹇 智 ， 但 是 并 
不 认同 他 研究 AI 所 选择 的 方向 。 


看 似 简 单 的 视觉 识别 


积木 世界 (Blocks World) 是 MIT AI Lab 在 20 世 纪 60 年 代 推 出 的 一 
个 项 目 典 范 。 为 了 简化 视觉 问题， 积木 世界 由 和 矩形 积木 组 成 ， 可 以 堆 登 
起 来 组 成 新 的 结构 〈 见 图 2-1) 。 该 项 目的 目标 是 编写 一 个 能 够 理解 命 
令 的 程序 ， 例 如 “找到 一 个 大 的 黄色 积木 并 将 其 放 在 红色 积木 上 面 "*， 并 
FU EH LE LS AF BUT tit SPT AR. KAR BNE FN UE 
戏 ， 但 却 需要 编写 一 个 庞大 而 复杂 的 程序 来 实现 。 这 个 程序 后 来 变 得 十 
分 了 见长 烦琐 ， 以 至 于 编写 该 程序 的 学 生 特 里 . 维 诡 格 拉 德 〈Terry 
Winograd) 离开 该 实验 室 之 后 ， 该 程序 因为 错误 百出 ， 频 频 朋 吝 ， 最 终 
被 无 奈 地 放弃 了 。 这 个 看 起 来 很 简单 的 问题 比 任 何人 想象 的 都 要 难得 
多 ， 即 使 成 功 了 ， 也 很 难 把 积木 世界 同 现实 世界 顺利 地 连接 起 来 ， 毕 竟 
在 现实 世界 中 物体 有 不 同 的 形状 、 大 小 和 重量 ， 而 且 并 非 所 有 边 角 都 是 


直角 。 相 比 于 照明 的 方向 和 位 置 都 能 固定 的 可 控 实 验 环境 ， 在 现实 世界 
中 ， 照 明 可 能 因 地 点 和 时 间 的 不 同 而 发 生 显著 变化 ， 这 极 大 地 增加 了 计 
算 机 物体 识别 任务 的 复杂 性 。 

T 


图 2-1 马 文 。 明 斯 基 在 观察 机 器 人 堆积 木 〈 照 片 拍摄 于 1968 年 左右 ) 。 积 木 世界 是 
我 们 如 何 与 世界 交互 的 简化 版 本 ， 但 它 面 对 的 问题 比 任何 人 想象 的 都 要 复杂 得 多 ， 
直到 2016 年 才 通过 深度 学 习 解 决 。 

20 世 纪 60 年 代 ，MIT AI Lab 获 得 了 来 自 一 个 军事 研究 机 构 的 大 笔 资 
金 ， 被 要 求 用 于 打造 一 个 可 以 打 乒 乓 球 的 机 器 人 。 我 曾经 听 过 一 个 故 
事 ， 那 就 是 这 个 项 目的 负责 人 起 了 在 基金 申请 书 中 加 上 为 机 器 人 建立 一 
个 视觉 系统 的 预算 ， 于 是 他 把 这 个 问题 分 配给 了 一 个 研究 生 作为 赫 期 研 
究 项 目 。 后 来 我 问 马 文明 斯 基 这 个 故事 是 不 是 真 的 。 他 反 驭 道 : “我 们 
把 那个 问题 分 配给 了 本 科 生 。”MIT 档 案 中 的 一 份 文件 证 实 了 他 的 回 
答 。' 二 这 个 看 上 去 很 容易 解决 的 问题 ， 最 终 被 证 明 是 个 “陷阱 ”， 吞 哈 了 
整整 一 代 计 算 机 视觉 研究 人 员 的 青春 。 


计算 机 视觉 的 进步 


尽管 物体 的 位 置 、 大 小 、 方 同和 受到 的 光照 不 同 ， 我 们 却 很 少 在 识 


别 物体 时 感到 吃力 。 计 算 机 视觉 研究 中 最 早 的 想法 之 一 是 将 物体 的 模板 
与 图 像 中 的 像素 进行 匹配 ， 但 是 这 种 方法 收效 其 徽 ， 因 为 同一 物体 不 同 
角度 的 两 个 图 像 中 的 像素 并 不 匹配 。 例 如 ， 参 考 图 2-2 中 的 两 只 鸟 。 如 
果 你 将 一 只 乌 的 影像 覆盖 到 只 一 只 马上 ， 你 可 以 找到 一 块 匹 配 的 部 分 ， 
但 其 余部 分 束 完 全 对 不 上 了 ; 但 是 如 果 有 另 一 个 种 类 的 乌 相同 姿势 的 图 
像 ， 你 却 可 以 得 到 相当 好 的 匹配 结果 。 


计算 机 视觉 的 进步 是 通过 关注 特征 而 非 像 素来 实现 的 。 例 如 ， 委 皇 
者 必须 具备 专业 水 平 才能 区 分 只 在 一 些 细微 处 略 有 差异 的 不 同 乌 类 。 一 
本 关于 乌 类 鉴别 的 实用 畅销 书 中 只 有 一 张 马 的 照片 ， 却 有 许多 示意 图 指 
出 了 各 种 鸟 之 间 的 细微 差别 〈 见 图 2-3) 。 三 一 个 好 的 特征 是 指 一 种 鸟 
类 独 有 的 特征 ， 但 是 如 果 在 别 的 种 类 中 也 可 以 找到 这 些 特征 ， 那 么 就 要 
靠 副 珊 、 眼 纹 和 凌 斑 的 独特 标记 组 合 来 区 分 。 当 这 些 标记 组 合 为 近 杀 种 
类 所 共享 时 ， 就 要 根据 叫 声 和 歌声 进一步 区 分 。 乌 类 的 章 图 或 彩绘 能 
好 地 将 我 们 的 注意 力 引 导 到 相关 的 区 别 特征 上 ， 相 比 之 下 ， 马 关照 片 里 
则 布 满 了 数 百 个 不 太 相关 的 特征 。 


图 2-2 两 只 斑 胸 草 稚 在 互相 审视 对 方 。 我 们 不 难看 出 它们 是 同一 物种 。 但 是 因为 它 
们 面 对 镜 头 的 角度 不 同 ， 所 以 很 难 将 它们 与 模板 对 应 ， 即 使 它们 有 具有 几乎 相同 的 特 


图 2-3 可 用 于 区 分 相似 鸟 类 的 显著 特征 。 箭 头 指 向 的 是 细 带 的 位 置 ， 对 于 分 辨 营 科 
非常 重要 : 有 的 轮廓 清晰 ， 有 的 界线 模糊 ， 有 的 是 双 条 的 ， 有 的 长 ， 有 的 短 。 图 片 
来 源 : Peterson, Mountfort, and Hollom, Field Guide tothe Birds of Britain 


and Europe, 5th ed., p.16. 

这 种 基于 特征 的 识别 方法 存在 的 问题 ， 不 仅 在 于 针对 世界 上 数 万 种 
不 同 物体 开发 特征 检测 器 是 非常 耗费 人 力 的 ， 而 且 即 便 使 用 最 精确 的 特 
征 检 测 器 ， 被 部 分 遮挡 住 的 物体 的 图 像 也 会 产生 卜 义 ， 这 使 得 识别 混乱 
场景 中 的 物体 成 了 计算 机 所 面临 的 一 项 艰巨 任务 。 


20 世 纪 60 年 代 ， 没 有 人 能 想到 我 们 要 人 花 上 50 年 ， 计 算 机 的 运算 能 
需要 提升 100 万 倍 ， 才 能 让 计算 机 视觉 达到 人 类 的 水 平 。 当 时 有 一 种 带 
有 误导 性 的 直觉 ， 认 为 编写 计算 机 视觉 程序 很 容易 。 这 种 直觉 是 基于 我 
们 认为 很 简单 的 行为 ， 例 如 看 、 听 、 四 处 走动 一 一 但 这 些 行为 是 经 过 了 
几 百 万 年 的 自然 进化 才 实现 的 。 让 早期 AI 先驱 十 分 眉 恼 的 是 ， 他 们 发 现 
计算 机 视觉 问题 非常 难以 解决 。 相 比 之 下 ， 他 们 发 现 通过 编写 程序 让 计 
算 机 证 明 数 学 定理 要 容易 得 多 一 一 这 个 过 程 曾 被 认为 需要 最 高 水 平 的 智 
能 一 一 因为 计算 机 处 理 馆 辑 问 题 的 能 力 比 人 类 要 强 得 多 。 逻 辑 思 维 是 进 
化 后 期 的 产物 ， 即 便 对 于 人 类 ， 也 需要 接受 从 逻辑 命题 到 得 出 严谨 结论 
的 长 期 训练 。 然 而 ， 对 于 大 多 数 我 们 所 面临 的 生存 问题 ， 从 以 往 经 验 中 
总 结 出 的 解决 方案 ， 在 大 部 分 时 间 都 能 发 挥 作用 。 


早期 人 工 智能 友 展 绥 慢 


20 世 纪 七 八 十 年 代 流 行 的 人 工 智能 专家 系统 ， 被 开发 用 以 通过 遵循 
一 套 规则 来 解决 医学 诊断 等 问题 。 因 此 ， 一 个 早期 的 专家 系统 | 
MYCIN， 被 开发 用 于 识别 导致 感染 性 疾病 如 细菌 性 脑膜 炎 的 细菌 。 三 
根据 专家 系统 方法 ，MYCIN 的 开发 者 首先 要 收集 由 传染 病 专家 提供 的 
事实 和 规则 ， 以 及 病人 的 症状 和 病史 ， 然 后 将 信息 输入 系统 中 的 计算 
机 ， 最 后 通过 编写 程序 让 计算 机 使 用 逻辑 进行 推理 。 然 而 ， 开 发 者 在 收 
集 专家 提供 的 事实 和 规则 时 过 到 了 麻烦 ， 尤 其 是 在 更 复杂 的 领域 ， 最 好 
的 诊断 医师 并 不 依赖 规则 ， 而 是 依靠 难以 编码 的 基于 经 验 的 图 案 识 别 ， 
三 而 且 他 们 的 系统 必须 随 独 新 发 现 的 诞生 和 旧 规 则 的 过 时 而 不 断 更 新 。 
开发 者 在 收集 和 输入 病人 的 症状 和 病史 信息 时 过 到 了 更 多 的 困难 。 录 入 
每 个 病人 的 信息 需要 花 上 半 小 时 或 更 长 的 时 间 ， 忙 碌 的 医生 们 根本 腾 不 
出 这 么 多 时 间 。 因 此 ，MYCIN 从 未 被 应 用 于 临床 是 预料 之 中 的 事 。 尽 
管 有 许多 针对 其 他 应 用 的 专家 系统 补 开 发 了 出 来 ， 例 如 有 毒物 质 泄漏 管 
理 、 自 动 驾 驶 车 辆 的 任务 规划 ， 以 及 语 首 识别 等 ， 但 如 今 ， 这 些 系统 在 
实际 生活 中 很 少 被 用 到 。 

研究 人 员 在 人 工 智 能 发 展 早期 尝试 了 许多 不 同 的 方法 ， 这 些 方法 通 
第 都 很 巧妙 ， 但 并 不 实用 。 他 们 不 仅 低 估 了 现实 世界 问题 的 复杂 性 ， 而 
且 提 出 的 解决 方案 无 法 进行 大 规模 应 用 。 在 复杂 的 领域 中 ， 规 则 的 数量 
可 能 会 非常 上 庞大， 并且 随 着 新 的 事实 的 出 现 而 不 断 被 添加 ， 跟 踪 所 有 规 
则 的 例外 情况 并 与 之 互动 变 得 十 分 不 切实 际 。 例 如 ， 道 格拉 斯 : 勒 奈 
(Douglas Lena 在 1984 年 启动 了 一 个 名 为 “Cyc” 的 项 目 ， 想 要 将 常识 
代码 化 ， 这 在 当时 似乎 是 一 个 好 主意 ， 但 实际 操作 起 来 却 成 了 一 场 罩 
梦 。 三 我 们 对 世界 上 的 大 量 事实 都 觉得 理所当然 ， 其 中 大 部 分 都 是 基于 
经 验 。 例 如 ， 从 40 英 尺 的 高 度 落下 的 猫 可 能 会 毫发 无 损 ， 三 但 是 从 同一 
高 度 险 沙 的 人 就 不 同 了 。 

早期 AI 进展 得 如 此 缓慢 的 另 一 个 原因 是 ， 数 字 计 算 机 还 处 于 非常 原 


始 的 阶段 ， 并 且 以 今天 的 标准 来 看 存储 器 成 本 十 分 高 昂 。 但 是 由 于 数字 
计算 机 在 逻辑 运算 、 符 号 操作 和 规则 应 用 方面 非常 高 效 ， 这 些 计 算 原 语 
在 20 世 纪 会 受到 青睐 并 不 令 人 惊讶 。 这 也 促使 了 卡 内 基 - 梅 隆 大 学 
(Carnegie Mellon University) 的 两 位 计算 机 科学 家 艾 伦 : 纽 维 尔 〈Allen 
Newell) FAMA PES? (Herbert Simon) 于 1955 年 写成 了 一 套 名 为 * 逻 
辑 理 论 家 ”的 计算 机 程序 ， 它 可 以 证 明 《数学 原理 》 (Principia 
Mathematica) 一 书 中 的 逻辑 定理 。《 数 学 原理 》 是 阿尔 弗 雷 德 :怀特 海 
德 (Alfred North Whitehead) 和 伯 特 兰 : 罗 素 〈(Bertrand Russell) 尝试 把 
所 有 的 数学 知识 系统 化 的 一 套 书 。 这 一 时 期 ， 人 们 对 于 智能 电脑 即将 到 
来 寄予 了 厚望 。 
那些 试图 编写 具有 人 类 智能 的 计算 机 程序 的 AI 先驱 ， 本 身 并 不 太 关 

心 大 脑 是 如 何 实现 智能 行为 的 。 我 问 艾 伦 : 纽 维尔 其 中 的 缘由 ， 他 告诉 
我 ， 他 本 人 对 大 脑 研 究 的 见解 持 开 放 态 度 ， 但 当时 根本 没有 足够 的 相关 
信息 可 以 借鉴 。 大 脑 功 能 的 基本 原理 在 20 世 纪 50 年 代 才 慢 慢 开始 被 揭 
开 ， 相 关 领 域 的 带头 人 包括 艾 伦 . 霍 奇 金 (Alan Hodgkin) 和 安德鲁 . 赫 
Z£ (Andrew Huxley) ， 他 们 解释 了 大 脑 信 号 是 如 何 通过 神经 中 的 电 
FPR SE Le ES PIAA, a ask MAAR ve (Bernard Katz) 
则 发 现 了 这 些 电子 信号 如 何 经 突 触 转化 为 化 学 信号 来 实现 神经 元 间 的 通 
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到 了 20 世 纪 80 年 代 ， 人 们 对 大 脑 的 了 解 日 荔 增 加 ， 并 且 在 生物 学 领 
域 以 外 对 大 脑 的 接触 也 变 得 更 加 广泛 ， 但 对 于 新 一 代 的 AI 研 究 人 员 来 
说 ， 大 脑 本 身 己 经 变 得 无 关 紧 要 了 。 他 们 的 目标 是 编写 一 个 程序 ， 使 其 
拥有 和 大 脑 一 样 的 功能 。 在 哲学 里 ， 这 种 立场 被 称 为 “功能 主义 ”， 对 许 
多 人 来 次， 这 是 一 个 可 以 忽略 生物 学 中 杂乱 细节 的 绝 佳 说 秤 。 但 是 一 小 
群 不 属于 主流 群体 的 AI 研究 人 员 认 为 ， 受 大 脑 生物 学 局 及 的 那些 被 称 
为 “神经 网 络 ” “连接 主义 ”和 “并 行 分 布 处 理 ”* 的 AI 实 现 方 法 ， 会 最 终 解 
决 困 扰 基 于 逻辑 的 AI 研 究 的 难题 。 我 正 是 那 一 小 群 人 中 的 一 个 。 


从 神经 网 络 到 人 工 智 能 


1989 年 ，MIT 计 算 机 科学 实验 室 主 任 迈 克 尔 德 图 佐 斯 (Michael 
Dertouzos) 邀请 我 到 MIT 做 一 个 有 关 我 在 基于 神经 网 络 的 人 工 智能 领域 
采用 的 开拓 性 研究 方法 的 “杰出 学 者 讲座 ”( 图 2-4) 。 到 场 后 ， 我 受到 


了 德 图 佐 斯 的 热情 接待 。 乘 电梯 时 他 告诉 我 : “MIT 有 个 传统 ， 杰 出 学 
者 讲座 的 演讲 者 需要 在 午餐 时 用 5 分 钟 的 时 间 与 教师 和 学 生 一 起 讨论 他 
的 讲座 话题 。 交 而 且 ，” 当 电梯 门 打开 时 ， 他 补充 站 , “他 们 挺 反感 你 在 
做 的 事情 。” 


图 2-4 我 在 介绍 大 脑 皮层 的 比例 法 则 ， 那 是 在 1989 年 我 加 入 索 尔 克 生 物 研 究 所 
(Salk Institute) RAG. AA RR: Ciencia Expl icada. 

房间 里 挤 满 了 差不多 一 百人 ， 德 图 佐 斯 也 很 意外 。 科 学 家 们 站 成 一 
Sl, PHASE: 高 级 教员 在 第 一 层 ， 第 二 层 是 初级 教员 ， 学 生 在 最 
后 一 层 。 我 走 到 圆圈 的 中 心 ， 正 对 痢 目 助 餐 的 主 染 。 我 要 在 这 5 分 钟 里 
说 些 什 么 ， 才 能 让 那些 讨厌 我 工作 的 人 改变 想法 呢 ? 

我 开始 即兴 发 挥 , “食物 上 这 只 苍蝇 的 大 脑 只 有 10 万 个 神经 元 ; 它 
大 概 重 1 毫克 ， 要 消耗 1 毫 瓦 的 能 量 ，” 我 边 说 边 驱 赶 苑 晶 ,，“ 苍 晶 能 


能 长 ， 可 以 自己 确定 改行 方向 ， 还 能 砚 食 。 但 最 不 可 思议 的 是 ， 它 可 以 
通过 繁殖 来 进行 自我 复制 。MIT 拥 有 一 台 价 值 1 亿 美元 的 超级 计算 机 : 
它 消耗 的 能 量 是 兆 瓦 级 的 ， 并 需要 一 台 巨 型 空调 进行 冷却 。 但 是 ， 超 级 
计算 机 的 最 大 成 本 是 要 消耗 大 量 人 力 ， 也 惑 是 说 程序 员 要 满足 它 对 程序 
的 巨大 需求 。 这 人 台 超 级 计算 机 不 能 看 ， 不 能 飞 ， 虽 然 它 能 与 其 他 计算 机 
交流 ， 但 它 不 能 交配 或 自我 复制 。 看 得 出 这 个 场景 描述 里 有 什么 问题 
uio » 

在 一 段 长 时 间 的 沉默 之 后 ， 一 位 高 级 教员 说 道 : “因为 我 们 还 没有 
编写 视觉 程序 。” (美国 国防 部 最 近 癌 其 战略 计算 计划 注入 了 6 亿美 元 ， 
这 项 计划 在 1983 一 1993 年 间 运 行 ， 但 是 缺少 了 为 自动 驾驶 坦克 创建 的 视 
觉 系 统 ) 。 三 我 的 回答 是 “ 祝 你 好 运 ”。 

在 座 的 有 杰 拉 德 . 苏 斯 曼 (Gerald Sussman) ， 他 为 用 人 工 智能 解决 
现实 世界 的 问题 做 出 了 几 个 重要 的 应 用 ， 其 中 包括 高 精度 轨道 力学 积分 
系统 ， 为 MIT 致 敬 图 灵 经 典 杰 作 的 AI 实 现 方法 挽回 了 尊严 (图 灵 曾 证 明 
图 灵机 ， 即 一 个 思维 实验 ， 可 以 计算 任何 可 计算 的 函数 ) 。“ 那 需要 多 
长 时 间 ? "FRA. “UR aR, BURZAMA S o RITE, 
然后 走 到 房间 另 一 头 给 自己 倒 了 一 杯 咖啡 。 我 与 教员 的 对 话 就 这 样 结束 
Ja 

“这 个 场景 出 了 什么 问题 ? ”是 我 实验 室 的 每 个 学 生 都 能 回答 的 问 
题 。 但 是 在 午餐 时 间 ， 前 两 排 观 众 都 被 难 倒 了 上 。 最 后 ， 第 三 排 的 一 名 学 
生 这 样 回答 :“ 数 字 计 算 机 是 一 种 通用 设备 ， 它 可 以 被 编程 来 计算 任何 
东西 ， 虽 然 效率 很 低 ， 但 苍蝇 是 一 种 专用 计算 机 ， 可 以 看 和 飞 ， 但 无 法 
平衡 我 的 账户 收文 。” 这 就 是 正确 答案 。 人 苍蝇 眼中 的 视觉 网 络 进化 了 数 
亿 年 ， 其 视觉 算法 能 入 了 和 它 本 映 的 网 络 。 这 吏 是 为 什么 你 可 以 利用 苍蝇 
眼神 经 回路 的 布线 图 和 信息 流 对 视觉 系统 进行 逆 问 工程 ， 以 及 为 什么 你 
不 能 在 数字 计算 机 上 这 样 做 ， 因 为 硬件 本 喘 需 要 软件 来 指定 要 解决 什么 
问题 。 


我 认 出 了 在 人 群 中 微笑 的 罗 德 尼 - 布 鲁 克 斯 (Rodney Brooks) 。 我 


曾经 邀请 他 参加 在 马 陡 诸 塞 州 鳞 鱼 角 的 伍兹 霍 尔 市 《Woods Hole) 举办 
的 计算 神经 科学 研讨 会 。 布 鲁 克 斯 是 澳大利亚 人 ，20 世 纪 80 年 代 ， 他 是 
MIT AI Lab 的 初级 教员 。 那 段 时 间 他 使 用 不 依赖 数字 逻辑 的 构架 搭建 了 
疏 行 昆虫 机 器 人 。 他 后 来 成 了 实验 室 主 管 ， 随 后 又 创建 了 打造 出 
Roombas 的 公司 iRobot。 


那天 下 午 我 做 演讲 的 房间 很 大 ， 挤 满 了 本 科 生 ， 新 生 代 想 要 展望 未 
来 ， 而 不 是 徘徊 在 过 去 。 我 谈 到 了 一 个 学 习 如 何 玩 西 洋 双 陆 棋 的 神经 网 
络 ， 这 是 一 个 与 伊利 话 伊 大 学 香槟 分 校 (the University of Illinois in 
Urbana-Champaign) 复杂 系统 研究 中 心 (Center for Complex Systems 
Research) 的 物理 学 家 杰 拉 德 : 特 索 罗 (Gerald Tesauro) 合作 的 项 目 。 西 
洋 双 陆 棋 是 两 名 玩家 之 间 的 比 守 ， 棋 子 根据 撕 骨 子 的 点 数 回 前 移动 ， 在 
途中 可 以 跳 过 对 方 的 棋子 。 与 具有 确定 性 的 国际 象棋 不 同 ， 西 洋 双 陆 棋 
是 由 偶然 因素 控制 的 : 每 次 掷 骨 子 的 不 确定 性 都 使 得 对 特定 棋 步 结果 的 
预测 更 加 困难 。 这 是 一 款 在 中 东 地 区 非常 受 欢 迎 的 游戏 ， 其 中 一 些 人 以 
玩 高 赌注 的 比赛 为 生 。 


考虑 到 有 10“ 个 可 能 的 西洋 双 陆 棋 棋盘 摆 法 ， 基 于 逻辑 和 试探 法 编 
写 程序 来 处 理 所 有 可 能 的 摆 法 将 会 是 一 个 不 可 能 完成 的 任务 。 于 古 ， 我 
们 让 神经 网 络 观 看 教师 对 局 ， 通 过 模式 识别 来 学 习 下 棋 。 三 杰 拉 德 后 来 
让 西洋 双 陆 棋 网 络 通过 跟 目 己 下 棋 进 行 学 习 ， 创 建 了 第 一 个 世界 冠军 级 
别 的 西洋 双 陆 棋 程 序 〈 第 10 章 会 详细 讲述 这 个 故事 ) 。 

演讲 结束 之 后 ， 我 听 说 那天 早上 《纽约 时 报 》 有 一 篇 关于 政府 机 构 
如 何 大 幅 削 减 人 工 智 能 资金 投入 的 头 版 文章。 虽然 对 主流 AI 研究 人 员 来 
说 ， 寒 冬 已 经 来 临 ， 但 它 并 没有 影响 到 我 和 我 的 研究 组 成 员 ， 对 我 们 来 
说 ， 神 经 网 络 的 春天 才刚 刚 到 来 。 

然而 我 们 新 的 AI 实现 方法 需要 25 年 的 时 间 才 能 在 视觉 、 语 音 和 语言 
方面 提供 实际 应 用 。 即 使 在 1989 年 ， 我 也 知道 这 需要 很 长 时 间 。1978 
年 ， 我 还 在 普林斯顿 大 学 读 研 究 生 时 就 在 想 ， 按 照 摩尔 定律 ， 计 算 机 的 
运算 能 力 会 呈 指 数 级 增长 ， 每 18 个 月 翻 一 番 ， 那 达到 大 脑 的 计算 能 力 需 


要 多 长 时 间 ? 我 的 结论 是 ， 到 2015 年 会 实现 。 笠 运 的 是 ， 这 并 没有 阻止 
我 继续 探索 。 我 对 神经 网 络 的 信仰 是 基于 我 的 直觉 ， 即 如 果 大 目 然 解决 
了 这 些 问 题 ， 我 们 也 应 该 能 够 从 大 目 然 中 学 习 到 同样 的 解决 方法 。 而 我 
不 得 不 耐心 等 得 的 这 25 年 ， 与 自然 界 的 数 亿 年 相 比 ， 它 仅仅 只 是 一 个 瞬 
间 。 


在 视觉 皮层 内 部 ， 神 经 元 呈 多 层次 排列 结构 。 随 看 感官 信息 在 皮层 
间 层 层 传递 ， 对 世界 的 呈现 也 变 得 越 来 越 抽 象 。 儿 十 年 来 ， 随 着 神经 网 
络 模型 层 数 的 增加 ， 其 性 能 也 在 不 断 提 高 ， 直 到 最 终 达 到 了 一 个 临界 
扩 ， 让 我 们 能 够 解决 在 20 世 纪 80 年 代 只 能 幻想 却 无 法 解决 的 问题 。 深 度 
学 习 可 以 目 动 找 出 能 区 分 图 像 中 不 同 物体 的 优质 特征 的 过 程 ， 这 就 是 今 
天 的 计算 机 视觉 比 5 年 前 好 得 多 的 原因 。 


到 2016 年 ， 计 算 机 的 运行 速度 已 经 快 了 上 百 万 倍 ， 计 算 机 内 存 也 从 
IRF PHBA PARA (terabytes〉。 与 20 志 纪 80 年 代 只 有 数 百 个 单元 
和 数 干 个 连接 的 网 络 相 比 ， 现 在 模拟 出 的 神经 网 络 具 有 数 百 万 个 早 元 和 
数 十 亿 个 连接 。 尺 管 按照 拥有 数 干 亿 个 神经 元 和 干 万 亿 个 突 触 连接 的 人 
类 大 脑 的 标准 来 看 ， 这 个 数字 仍然 很 小 ， 但 现 有 神经 网 络 的 规模 已 经 可 
以 在 有 限 领域 中 进行 原理 的 证 明 。 


基于 深度 神经 网 络 的 深度 学 习 已 经 出 现 了 ， 但 在 有 深度 网 络 之 前 ， 
我 们 必须 学 习 如 何 训练 浅 层 网 络 。 


1. 虽然 直到 1970 年 才 正 式 成 立 ， 麻 省 理工 学 院 人 工 智 能 实验 室 (MIT AI Lab) 于 1959 

年 就 开始 了 相关 的 研究 项 目 ， 并 于 2003 年 跟 及 省 理工 学 院 计算 机 科学 实验 室 (LCS) & 
并 ， 组 建 了 麻 省 理工 学 院 计 算 机 科学 与 人 工 智 能 实验 室 (CSAIL)〉。 为 了 保持 简洁 和 一 致 
性 ， 我 把 该 机 构 统 称 为 “MIT AI Lab”. 

2. |i] Seymour A. Papert, “The Summer Vision Project,” AI Memo AIM-100, July 1, 1966, 
DSpace@MIT， https://dspace.mit.edu/handle/1721.1/6125。 根 据 麻 省 理工 学 院 2016 级 毕业 生 
Michaela Ennis 的 说 法 :“ 有 关 麻 省 理工 学 院 本 科 生 被 安排 将 ‘计算 机 视觉 ?作为 嗜 期 研究 项 
目的 故事 ， 帕 特 里 克 : 温 斯 顿 (Patrick Winston) 教授 每 年 都 会 拿 到 课堂 上 讲 ， 他 还 说 过 这 
个 本 科 生 就 是 杰 拉 德 : 苏 斯 最 (Gerald Sussman) . ” 
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03 
神经 网 络 的 黎明 


任何 人 工 智 能 的 难题 都 可 以 被 解决 。 唯 一 能 证 明 这 一 论断 成 立 的 是 
这 样 一 个 事实 : 自然 界 通过 进化 已 经 解决 了 这 些 难题 。 但 在 20 世 纪 50 年 
代 就 已 经 存在 各 种 上 暗示， 如果 AI 研究 者 能 够 选择 完全 不 同 于 符号 处 理 的 
方式 ， 计 算 机 会 如 何 表现 出 智能 行为 。 

第 一 条 暗示 是 ， 我 们 的 大 脑 是 强大 的 模式 识别 器 。 我 们 的 视觉 系统 
可 以 在 110 秒 内 识别 混乱 场景 中 的 对 象 ， 即 使 我 们 可 能 从 未 见 过 那个 特 
定 的 对 象 ， 也 不 论 该 对 象 在 什么 位 置 ， 多 大 尺寸 ， 以 什么 角度 面 对 我 
们 。 简 而 言 之 ， 我 们 的 视觉 系统 就 像 一 台 以 “识别 对 象 ” 作 为 单一 指令 的 
计算 机 。 

第 二 条 暗示 是 ， 我 们 的 大 脑 可 以 通过 练习 来 学 会 如 何 执行 若干 艰巨 
的 任务 ， 比 如 弹 钢 琴 、 掌 握 物 理学 知识 。 大 自然 使 用 通用 的 学 习 方 法 来 
解决 特殊 的 问题 ， 而 人 类 则 是 顶尖 的 学 习 者 。 这 是 我 们 的 特殊 能 力 。 我 
们 大 脑 皮 层 的 经 dE CLE 并 且 我 们 所 有 的 感受 系统 和 运动 系 
统 都 有 深度 学 习 网 络 。 


第 三 条 上 暗示 是 ， 我 们 的 大 脑 并 没有 充斥 着 逻辑 或 规则 。 当 然 ， 我 们 
可 以 学 习 逻 辑 思 维 或 遵守 规则 ， 但 必须 要 经 过 大 量 的 训练 ， 而 我 们 当中 
的 大 多 数 人 对 此 并 不 在 行 。 这 一 点 可 以 通过 人 们 在 一 个 叫 作 “ 华 生 选 择 
任务 ”(Wason selection task) 的 逻辑 谜 题 上 的 典型 表现 来 进行 说 明 〈 见 
图 3-1) 。 


图 3-1 这 四 张 卡片 ， 每 张 都 是 一 面 有 数字 ， 另 一 面 涂 满 了 颜色 。 要 测试 以 下 命题 为 
d: 一 张 卡 片 在 一 面 显示 为 偶数 ， 那 它 的 另 一 面 就 是 红色 的 。 你 需要 翻 哪 〈 几 ) 张 
牌 呢 ? 图 片 来 源 : “ 华 生 选择 任务 ”， 维 基 百 科 。 

正确 的 选择 是 正面 为 数字 “8”， 背 面 为 标 色 的 卡片 。 在 最 初 的 研究 
中 ， 只 有 10% ”的 受 试 者 给 出 了 正确 的 答案 。 三 但 是 ， 当 给 这 项 逻辑 测 
试 加 上 了 熟悉 的 背景 信息 时 ， 大 多 数 受 试 者 都 能 很 快 找 出 正确 答案 〈 见 
图 3-2) 。 

推理 似乎 是 基于 特定 领域 的 ， 我 们 对 该 领域 越 熟 严 ， 就 越 容易 解决 
其 中 的 问题 。 经 验 使 得 在 一 个 领域 内 进行 推理 变 得 更 容易 ， 因 为 我 们 可 
以 用 已 有 的 例子 来 下 意识 地 得 到 解决 方案 。 例 如 ， 在 物理 学 中 ， 我 们 通 
过 解决 各 种 问题 ， 而 不 是 通过 背诵 公式 ， 来 学 习 电 磁 学 领域 的 知识 。 如 
果 人 类 的 智能 是 完全 基于 逻辑 的 ， 那 么 它 应 该 是 跨 领 域 的 通用 智能 ， 但 
事实 并 非 如 此 。 


图 3-2 每 张 卡 片 都 是 一 面 有 一 个 年 龄 数字 ， 另 一 面 印 着 一 种 饮料 。 需 要 翻 哪 〈 几 ) 


张 牌 才能 检验 这 条 法 律 : 如 果 你 正在 喝酒 ， 那 说 明 你 一 定 超过 18 岁 了 ? BAK 
源 : “ 华 生 选择 任务 ”， 维 基 百 科 。 

第 四 条 暗示 是 ， 我 们 的 大 脑 充满 了 数 百 亿 个 小 小 的 神经 元 ， 每 时 每 
刻 都 在 互相 传递 信息 。 这 表明 ， 要 解决 人 工 智 能 中 的 难题 ， 我 们 应 该 研 
完 具 有 大 规模 并 行 体系 结构 的 计算 机 ， 而 不 是 那些 上 共有 冯 : 诺 依 曼 数 字 
体系 结构 ， 每 次 只 能 获取 和 执行 一 个 数据 或 指令 的 计算 机 。 是 的 ， 图 灵 
机 在 被 给 予 足 够 内 存 和 时 间 的 条 件 下 ， 的 确 可 以 计算 任何 可 计算 的 函 
数 ， 但 自然界 必 须 实时 解决 问题 。 要 做 到 这 一 点 ， 它 利用 了 大 脑 的 神经 
网 络 ， 就 像 地 球 上 最 强大 的 计算 机 一 样 ， 它 们 具有 大 量 的 并 行 处 理 器 。 
只 有 能 有 效 运行 的 算法 ， 最 终 才 能 在 自然 选择 中 胜出 。 


深度 学 习 的 起 后 


20 世 纪 五 六 十 年 代 ， 在 话 伯 特 : 维 纳 (Norbert Wiener) 提出 基于 机 
器 和 生物 中 的 通信 和 控制 系统 的 控制 论 之 后 不 入， 三 学 界 对 上 自 组 织 系 统 
开始 产生 了 谈 厚 的 兴趣 。 而 其 中 一 个 独创 性 产物 便 是 由 奥利弗 . 塞 弗 里 
奇 (Oliver Selfridge) 创造 的 Pandemonium (HI) 。 三 这 是 一 个 图 案 
识别 设备 ， 其 中 进行 特征 检测 的 “恶魔 ”通过 互相 竞争 ， 来 争取 代表 图 像 
中 对 象 的 权利 《深度 学 习 的 隐喻 ， 见 图 3-3) 。 斯 坦 福 大 学 的 但 纳 德 : 威 
$877 (Bernard Widrow) 和 他 的 学 生 泰 德 ' 堆 夫 〈Ted Hoff) 发 明了 
LMS 〈 最 小 均 方 ) 学 习 算法 ， 三 它 与 其 后 继 算法 一 起 被 广泛 用 于 上 自 适 
应 信号 处 理 ， 例 如 噪声 消除 、 财 务 预测 等 应 用 。 在 这 里 ， 我 将 重点 关注 
一 位 先驱 弗兰克 : 罗 森 布 拉 特 (Frank Rosenblatt) (图 3-4) ， 他 发 明 的 
感知 器 是 深度 学 习 的 前 身 。 = 


认 知 恶魔 


PL 
= 
— 


图 3-3 Pandemonium。 奥 利 弗 。 塞 弗 里 奇 认 为 ， 大 脑 中 有 恶魔 负责 从 感官 输入 中 先后 
提取 更 复杂 的 特征 和 抽象 概念 ， 从 而 做 出 决定 。 如 果 每 个 级 别 的 恶魔 与 前 一 个 级 别 
的 输入 相 匹配 ， 则 会 激动 不 已 。 做 决定 的 恶魔 需要 衡量 所 有 信息 传递 者 的 兴奋 程度 
和 重要 性 。 这 种 形式 的 证 据 评 估 是 对 当前 多 层次 深度 学 习 网 络 的 隐喻 。 图 片 来 源 : 
Peter H. Lindsay and Donald A. Norman, Human Information Processing: An 
Introduction to Psychology, 2nded. (New York: Academic Press, 1977), E3- 
1。 维 基 共 享 资源 : https: //commons. wikimedia. org/wiki/Fi le:Pande. jpg. 


NEW NAVY DEVICE| pom 
LEARNS BY DOING 


Psychologist Shows Embryo 
of Computer Designed to 


Read and Grow Wiser | 


WASHINGTON, July. 7 (UPI) 
一 The Navy revealed the ém- 
bryo of an electronic computer 
today that it expects will be 
able to walk, talk, see, write, 
reproduce itself and be con- 
scious of its existence, 

The embryo—the Weather 
Bureau's $2,000,000 “704” com- 
puter—learned to differentiate 
between right and left after 
fifty attempts in the Navy's 
demonstration for newsmen., 

The service said it would use 
this principle to build the first 
of its Perceptron thinking ma- 
chines that will be able to read 
‘and write, It is expected to he 
ifinished in about a year at a 
cost of $100,000. 

Dr. Frank Rosenblatt, de- 
signer of the Perceptron, con- 
ducted the demonstration, He 
said the machine would be the 
first device to think as the hu- 
man brain. As do human be- 
ings, Perceptron will make mis- 
takes at first, but will grow 
wiser as it gains experience, he 
said, : 

Dr: Rosenblatt, a research 
psychologist at the -Cornell 
Aeronautical Laboratory, Buf- 
falo, said Perceptrons might be 
fired to the planets as mechani- 
cal space explorers. ` 


图 3-4 深思 中 的 康 奈 尔 大 学 教授 弗兰克 。 罗 森 布 拉 特 ， 他 发 明了 感知 器 。 作 为 深度 
学 习 网 络 的 早期 锥 形 ， 感 知 器 是 能 够 将 图 像 进 行 分 类 的 简易 学 习 算 法 。 图 中 文章 是 
1958 年 7 月 8 日 在 《纽约 时 报 》 上 发 表 的 一 篇 来 自 合众国 际 社 (UPI) 的 报道 。 感 知 器 
在 1959 年 完成 时 预计 花费 了 10 万 美元 ， 相 当 于 今天 的 100 万 美元 。1BM704 计 算 机 在 
1958 年 价值 200 万 美元 ， 相 当 于 现在 的 2000 万 美元 ， 可 以 实现 每 秒 12000 次 的 乘法 运 
算 ， 这 在 当时 已 经 是 极 快 的 速度 了 。 不 过 相 比 之 下 ， 现 在 价格 要 低 得 多 的 三 星 

S6 手 机 每 秒 可 以 执行 340 亿 次 操作 ， 速 度 要 快 100 万 们 以 上 。 图 片 来 源 : 
eorge Nagy. 


从 样本 中 学 习 


尽管 我 们 对 大 脑 功 能 缺乏 足够 的 了 解 ， 但 神经 网 络 的 AI 先驱 们 依然 
依靠 着 神经 元 的 绘图 以 及 它们 相互 连接 的 方式 ， 进 行 着 艰难 的 摸索 。 康 
条 尔 大 学 的 弗兰克 :多 和 森 布 拉 特 是 最 早 模仿 人 体 目 动 图 案 识别 视觉 系统 
架构 的 人 之 一 。 三 他 友 明 了 一 种 看 似 简单 的 网 络 感知 器 

(perceptron) ， 这 种 学 习 算 法 可 以 学 习 如 何 将 图 案 进 行 分 类 ， 例 如 识 
别 字 母 表 中 的 不 同 字 母 。 算 法 是 为 了 实现 特定 目标 而 按 步 又 执行 的 过 
程 ， 束 像 烘焙 乍 料 的 食谱 一 样 〈 关 于 算法 ， 将 会 在 第 13 章 中 进行 介 
绍 ) 。 

如 果 你 了 解 了 感知 器 如 何 学 习 图 案 识 别 的 基本 原则 ， 那 么 你 在 理解 
深度 学 习 工 作 原 理 的 路 上 已 经 成 功 了 一 半 。 感 知 器 的 目标 是 确定 输入 的 
图 案 是 否 属于 图 像 中 的 某 一 类 别 ( 比 如 猫 )。 方 框 3.1 解 释 了 感知 器 的 
输入 如 何 通 过 一 组 权重 ， 来 实现 输入 单元 到 输出 单元 的 转换 。 权 重 是 对 
每 一 次 输入 对 输出 单元 做 出 的 最 终 决 定 所 产生 影响 的 度量 ， 但 是 我 们 如 
何 找到 一 组 可 以 将 输入 进行 正确 分 类 的 权重 呢 ? 

工程 师 解决 这 个 问题 的 传统 方法 ， 是 根据 分 析 或 特定 程序 来 手动 设 
定 权 重 。 这 需要 耗费 大 量 人 力 ， 而 且 往 往 依赖 于 直觉 和 工程 方法 。 男 一 
种 方法 则 是 使 用 一 种 从 样本 中 学 习 的 自动 过 程 ， 和 我 们 认识 世界 上 的 对 
象 的 方法 一 样 。 需 要 很 多 样本 来 训练 感知 器 ， 包 括 不 属于 该 类 别 的 反面 
样本 ， 特 别 是 和 目标 特征 相似 的 ， 例 如 ， 如 果 识 别 目标 是 猎 ， 那 么 狗 就 
是 一 个 相似 的 反面 样本 。 这 些 样 本 被 逐个 传递 给 感知 器 ， 如 果 出 现 分 类 
错误 ， 算 法 就 会 目 动 对 权重 进行 校正 。 

这 种 感知 器 学 习 算法 的 美妙 之 处 在 于 ， 如 果 已 经 存在 这 样 一 组 权 
重 ， 并 且 有 足够 数量 的 样本 ， 那 么 它 肯 定 能 自动 地 找到 一 组 合适 的 权 
重 。 在 提供 了 训练 集中 的 每 个 样本 ， 并 且 将 输出 与 正确 答案 进行 比较 
后 ， 感 知 器 会 进行 递 进 式 的 学 习 。 如 果 管 案 是 正确 的 ， 那 么 权重 束 不 会 
发 生变 化 。 但 如 果 答 案 不 正确 〈0 被 误 判 成 了 1， 或 1 被 误 判 成 了 0) ， 权 
重 就 会 被 略微 调整 ， 以 便 下 一 次 收 到 相同 的 输入 时 ， 它 会 更 接近 正确 管 
案 《〈 见 方 框 3.1) 。 这 种 渐进 的 变化 很 重要 ， 这 样 一 来 ， 权 重 就 能 接收 


来 自 所 有 训练 样本 的 影响 ， 而 不 仅仅 是 最 后 一 个 。 


wọ (t) = 0 


感知 器 是 具有 单一 人 造 神经 元 的 神经 网 络 ， 它 有 一 个 输入 层 ， 
和 将 输入 单元 和 输出 单元 相连 的 一 组 连接 。 感 知 器 的 目标 是 对 提供 
给 输入 单元 的 图 案 进行 分 类 。 输 出 单元 执行 的 基本 操作 是 ， 把 每 个 
HA Gq) 与 其 连接 强度 或 权重 (wa) 相 乘 ， 并 将 乘积 的 总 和 传递 
给 输出 单元 。 上 图 中 ， 输 入 的 加 权 和 (Sinton wi xp SREO 
行 比较 后 的 结果 被 传递 给 阶 跃 函数 。 如 果 总 和 超过 阔 值 ， 则 阶 跃 函 
数 输出 “1*， 否 则 输出 0"。 例 如 ， 输 入 可 以 是 图 像 中 像素 的 强度 ， 
或 者 更 常见 的 情况 是 ， 从 原始 图 像 中 提取 的 特征 ， 例 如 图 像 中 对 象 
的 轮廓 。 每 次 输入 一 个 图 像 ， 感 知 器 会 判定 该 图 像 是 否 为 某 类 别 的 
成 员 ， 例 如 猫 类 。 输 出 只 能 是 两 种 状态 之 一 ， 如 果 图 像 处 于 类 别 
中 ， 则 为 < 开 ”， 否 则 为 < 关 *。“ 开 ”和 人“ 关 * 分 别 对 应 二 进 制 值 中 的 1 和 
0。 感 知 器 学 习 算法 可 以 表达 为 : 


Ów;-aÓxj; 


ó—-output-teacher, 


XE, output 〈 输 出 值 ) 和 teacher CHEME) 都 是 二 进 制 的 ， 
所 以 根据 差 值 ， 如 果 输 出 正确 ，6=0， 如 果 输 出 不 正确 ，6=+1 或 者 - 


Ls 
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两 个 输入 单元 的 特殊 情况 ， 可 以 在 二 维 图 上 用 点 来 表示 输入 样本 。 每 个 
输入 都 是 图 中 的 一 个 点 ， 而 网 络 中 的 两 个 权重 则 确定 了 一 条 直线 。 感 知 
器 学 习 的 目标 是 移动 这 条 线 ， 以 便 清 楚 地 区 分 正 负 样本 《〈 见 图 3-5) 。 
对 于 有 三 个 输入 单元 的 情况 ， 输 入 空间 是 三 维 的 ， 感 知 器 会 指定 一 个 平 
面 来 分 隔 正 负 训 练 样本 。 在 一 般 的 情况 下 ， 即 使 输入 空间 的 维度 可 能 相 
当 高 且 无 法 可 视 化 ， 同 样 的 原则 依然 成 立 。 
非 线性 


图 3-5 关于 感知 器 如 何 区 分 两 个 对 象 类 别 的 几何 解释 。 这 些 对 象 有 两 个 特征 ， 例 如 
尺寸 和 亮度 ， 它 们 依据 各 自 的 坐标 值 (x，y) 被 绘制 在 每 张 图 上 。 左 边 图 中 的 两 种 
FZ (加 号 和 正方 形 ) 可 以 通过 它们 之 间 的 直线 分 隔 开 ; 感知 器 能 够 学 习 如 何 进行 
这 种 区 分 。 其 他 两 个 图 中 的 两 种 对 象 不 能 用 直线 隔 开 ， 但 在 中 间 的 图 中 ， 两 种 对 象 
可 以 用 曲线 分 开 。 而 右 侧 图 中 的 对 象 必须 舍弃 一 些 样本 才能 分 隔 成 两 种 类 型 。 如 果 
有 足够 的 训练 数据 ， 深 度 学 习 网 络 就 能 够 学 习 如 何 对 这 三 个 图 中 的 类 型 进行 区 分 。 
最 终 ， 如 果 解 决 方案 是 可 行 的 ， 权 重 将 不 再 变化 ， 这 意味 着 感知 器 
己 经 正确 地 将 训练 集中 的 所 有 样本 进行 了 分 类 。 但 是 ， 在 所 谓 的 “过 度 
WE” Coverfitting) 中 ， 也 可 能 没有 足够 的 样本 ， 网 络 仅仅 记 住 了 特定 
的 样本 ， 而 不 能 将 结论 推广 到 新 的 样本 。 为 了 避免 过 度 拟 合 ， 关 键 是 要 
有 男 一 套 样 本 ， 称 为 “测试 集 ”(test se ， 它 没有 被 用 于 训练 网 络 。 训 


练 结束 时 ， 在 测试 集 上 的 分 类 表现 ， 就 是 对 感知 器 是 否 能 够 推广 到 类 别 
未 知 的 新 样本 的 真实 度量 。 泛 化 (generalization) 是 这 里 的 关键 概念 。 
在 现实 生活 中 ， 我 们 几乎 不 会 在 同样 的 视角 看 到 同一 个 对 象 ， 或 者 反复 
遇 到 同样 的 场景 ， 但 如 果 我 们 能 够 将 以 前 的 经 验 泛 化 到 新 的 视角 或 场景 
中 ， 我 们 就 可 以 处 理 更 多 现实 世界 的 问题 。 


利用 感知 器 区 分 性 别 


举 一 个 用 感知 器 解决 现实 世界 问题 的 例子 。 想 想 如 果 去 抒 头 发 、 首 
饰 和 第 二 性 征 ， 比 如 男性 比 女 性 更 为 突起 的 喉 结 ， 该 如 何 区 分 男性 和 女 
性 的 面部 。 比 阿 特 丽 斯 :哥伦布 (Beatrice Golomb) 是 1990 年 我 实验 室 
里 的 一 名 博士 后 研究 员 ， 她 利用 一 个 数据 库 中 的 大 学 生 面 部 照片 作为 感 
知 恬 的 输入 ， 经 过 训练 的 感知 器 能 以 81% 的 准确 度 对 面部 的 性 别 进行 分 
类 ( 见 图 3-6) 。' 忆 而 对 于 感知 右 难 以 分 类 的 面部 ， 人 类 也 同样 很 难 做 
出 区 分 。 我 实验 室 的 成 员 在 同一 组 人 的 面部 识别 上 达到 了 88% 的 平均 准 
确 度 。 比 阿 特 丽 斯 还 训练 了 多 层 感知 问 《〈 将 在 第 8 章 中 介绍 ) ， 其 准确 
度 达 到 了 92%， 三 比 我 实验 室 的 成 员 还 要 准确 。 她 在 1991 年 的 NIPS 大 会 
EARN RIE: “经 验 可 以 提高 性 能 ， 这 表明 实验 室 的 研究 人 
员 需 要 花 更 多 时 间 来 进行 性 别 鉴 定 的 工作 。? 她 把 她 的 多 层 感 知 器 叫 
作 *SEXNET”(〈 性 别 网 络 ) 。 在 问答 环节 ， 有 人 问 是 否 可 以 使 用 
SEXNET 来 检测 异 装 闻 者 的 面孔 。“ 可 以 。? 比 阿 特 丽 斯 这 样 回 答 。 而 
NIPS 大 会 的 创始 人 爱德华 :波斯 纳 (Edward Posner) 辩驳 道 :“ 那 就 应 该 
叫 DRAGNET GERD ."— 


图 3-6 这 张 脸 属于 男性 还 是 女性 ? 人 们 通过 训练 感知 器 来 办 别 男 性 和 女性 的 面孔 。 
来 自 面部 图 像 (上 图 ) 的 像素 来 以 相应 的 权重 《下 图 ) ， FIFRA HD S > Fea 5 RB 
进行 比较 。 每 个 权重 的 大 小 被 描绘 为 不 同 颜色 像素 的 面积 。 正 值 的 权重 《和 白色 ) 表 
现 为 男性 ， 负 值 的 权重 《黑色 ) 倾向 于 女性 。 自 子 宽度 ， 鼻 子 和 嘴 之 间 区 域 的 大 
小 ， 以 及 眼睛 区 域 周围 的 图 像 强度 对 于 区 分 男性 很 重要 ， 而 嘴 和 额 骨 周围 的 图 像 强 
度 对 于 区 分 女性 更 重要 。 图 片 来 源 : M S. Gray, D. T. Lawrence, B. A. 
Golomband T. J. Sejnowski, “A Perceptron Revealsthe Face of Sex, " Neural 
Computation7 (1995) :1160-1164, K1. 


区 分 男性 与 女性 面部 的 工作 有 趣 的 一 点 是 ， 虽 然 我 们 很 擅长 做 这 种 
区 分 ， 却 无 法 确切 地 表述 男女 面部 之 间 的 其 异 。 由 于 没有 单一 特征 是 决 

定性 的 ， 因 此 这 种 模式 识别 问题 要 依赖 于 将 大 量 低级 特征 的 证 据 结 合 起 
来 。 感 知 器 的 优点 在 于 ， 权 重 提供 了 对 性 别 区 分 最 有 帮助 的 面部 的 线 
Ro SARAKE, Ach ATARE IB Ao) set tie RF 
征 ， 大 多 数 男性 人 中 的 面积 更 大 。 眼 睛 周围 的 区 域 (男性 较 大 )〉 FE 


《女性 较 大 ) 对 于 性 别 分 类 也 有 着 很 高 的 信息 价值 。 感 知 器 会 权衡 来 自 
所 有 这 些 位 置 的 证 据 来 做 出 决定 ， 我 们 也 是 这 样 来 做 判定 的 ， 尽 管 我 们 
可 能 无 法 摘 述 出 到 展 是 怎么 做 到 的 。 

1957 年 罗 森 布 拉 特 对 “感知 器 收敛 定理 ”的 证 明 是 一 个 突破 ， 他 的 演 
示 令 人 印象 深刻 。 在 美国 海军 研究 办 公 室 COffice of Naval Research) 的 
文 持 下 ， 他 搭建 了 一 个 以 400 个 光电 单元 作为 输入 的 定制 硬件 模拟 计算 
机 ， 其 权重 是 由 电机 调整 的 可 变 电 阻 电位 器 。 模 拟 信 和 号 随 着 时 间 连 续 变 
化 ， 就 像 黑 胶 唱 斤 中 的 信号 一 样 。 用 一 组 图 乒 集 〈 其 中 部 分 图 片 中 有 坦 
殉 ， 男 外 一 部 分 则 没有 〉 进行 训练 ， 罗 森 布 拉 特 的 感知 器 即使 在 新 图 像 
中 也 能 准确 识别 坦 殉 。 这 一 成 果 经 《纽约 时 报 》 报 道 后 引起 了 禾 动 〈 见 
图 3-4) . WE 


感知 右 激 发 了 对 高 维 空间 中 模式 分 离 的 美妙 的 数学 分 析 。 当 那些 点 
存在 于 有 数 干 个 维度 的 空间 中 时 ， 我 们 就 无 法 依赖 在 生活 的 三 维 空间 里 
对 点 和 点 之 间距 离 的 直觉 。 俄 罗斯 数学 家 弗 拉 基 米尔 ' 瓦 普 尼 死 
(Vladimir Vapnik) 在 这 种 分 析 的 基础 上 引入 了 一 个 分 类 器 ， 称 为 “ 文 
持 向 量 机 ”(Support Vector Machine) ， 三 它 将 感知 器 泛 化 ， 并 被 大 量 
用 于 机 絮 学 习 。 他 找到 了 一 种 自动 寻找 平面 的 方法 ， 能 够 最 大 限度 地 将 
两 个 类 别 的 点 分 开 〈 见 图 3-5， 线 性 ) 。 这 让 泛 化 对 空间 中 数据 点 的 测 
量 误差 容 妨 度 更 大 ， 再 结合 作为 非 线 性 扩充 的 “内 核 拉 巧 ”(kernel 
trick) ， 文 持 疝 量 机 算法 就 成 了 机 器 学 习 中 的 重要 支柱 。 志 


被 低估 的 神经 网 络 


但 是 有 一 个 限制 ， 使 得 感知 器 的 研究 存在 问题 。 上 面 的 假设 “如 果 
存在 这 样 的 权重 集合 ”提出 了 一 个 这 样 的 困惑 ， 即 什么 样 的 问题 可 能 或 
不 可 能 被 感知 器 解决 。 令 人 复诊 的 是 ， 在 二 维 平 面 中 ， 简 单 分 布 的 点 不 
能 被 感知 器 分 开 《〈 见 图 3-5， 非 线性 ) 。 事 实证 明 ， 坦 殉 感知 器 不 是 坦 


克 分 类 器 ， 而 是 天 气 分 类 器 。" 二 对 图 像 中 的 坦克 进行 分 类 要 困难 得 多 ， 
而 事实 上 ， 它 不 能 用 感知 器 来 完成 。 这 也 表明 ， 即 使 感知 器 学 到 了 一 些 
东西 ， 也 可 能 不 是 你 认为 它 应 该 学 到 的 那些 东西 。 压 倒 感 知 器 的 最 后 一 
根 稻草 是 马 文 . 明 斯 基 和 西 摩尔 ' 则 普 特 在 1969 年 发 表 的 数学 专著 《感知 
器 》 (Perceptrons) . 三 他 们 明确 的 几何 分 析 表 明 ， 感 知 器 的 能 力 是 有 
BRAN: 它们 只 能 区 分 线性 可 分 的 类 别 〈 见 图 3-5) 。 这 本 书 的 封面 展示 
了 明 斯 基 和 由 普 特 证 明 的 感知 右 无 法 解决 的 几何 问题 〈 见 图 3-7) 。 尽 
管 在 书 的 末尾 ， 明 斯 基 和 骨 普 特 考 虑 了 将 单 层 感知 器 进行 泛 化 成 为 多 层 
感知 器 的 前 景 ， 但 他 们 怀疑 可 能 没有 办 法 训练 这 些 更 强大 的 感知 器 。 不 
幸 的 是 ， 许 多 人 对 他 们 的 论断 坚信 不 疑 ， 于 是 这 个 研究 领域 渐渐 被 人 们 
遗忘 ， 直 到 20 志 纪 80 年 代 ， 新 一 代 神 经 网 络 研 究 人 员 开 始 重 新 审视 这 个 
问题 。 

在 感知 器 中 ， 每 个 输入 都 独立 地 同 输出 单元 提供 证 据 。 但 是 ， 如 果 
需要 依靠 多 个 输入 的 组 合 来 做 决定 ， 那 会 怎样 呢 ?” 这 就 是 感知 器 无 法 区 
分 蝶 旋 结构 是 人 否 相连 的 原因 : 单个 像素 并 不 能 提供 它 是 在 内 部 还 是 外 部 
的 位 置信 息 。 尽 管 在 多 层 前 馈 神 经 网 络 中 ， 可 以 在 输入 和 输出 单元 之 间 
的 中 间 层 中 形成 多 个 输入 的 组 合 ， 但 是 在 20 世 纪 60 年 代 ， 还 没有 人 知道 
如 何 训练 简单 到 中 间 只 有 一 层 “ 隐 藏 单元 ”(hiddenunits) 的 神经 网 络 。 


Perceptrons 


图 3-7 《感知 器 》 一 书 的 增订 版 封面 。 两 个 红色 的 螺旋 结构 看 起 来 一 样 ， 但 实际 并 
非 如 此 。 上 方 的 图 案由 两 个 不 相连 的 螺旋 线 组 成 ， 下 面 的 则 是 单一 的 螺旋 线 。 你 可 
以 通过 用 铅笔 跟踪 环 路 的 内 部 路 径 来 验证 。 明 斯 基 和 帕 普 特 证 明了 感知 器 不 能 区 分 
这 两 个 对 象 。 你 能 直接 用 肉眼 看 出 区 别 吗 ? 为 什么 不 能 ? 

弗兰克 : 罗 森 布 拉 特 和 马 文 : 明 斯 基 曾 是 纽约 市 布朗 克 斯 科技 高 中 的 
同班 同学 。 他 们 在 科学 会 议 上 为 各 目 迎 异 的 人 工 智 能 研究 方法 展开 了 辩 
论 ， 而 与 会 者 更 倾 问 于 明 斯 基 的 方法 。 尽 管 存在 差异 ， 但 他 们 二 人 对 我 
们 理解 感知 器 都 有 着 重要 贡献， 而 这 正 是 深度 学 习 的 起 点 。 

罗 森 布 拉 特 在 1971 年 死 于 一 次 鸭 般 事故， 年 仅 43 岁 ， 当 时 正 值 人 们 
几乎 一 按 倒 地 反对 感知 器 的 时 期 。 有 传言 说 他 可 能 是 目 杀 ， 但 也 可 能 只 
是 一 次 不 幸 的 出 游 。 三 不 可 和 否认 的 是 ， 一 个 发 现 了 利用 神经 网 络 进行 计 
算 的 新 方式 的 英雄 时 代 已 经 谢幕 ， 叉 过 了 整整 一 代 人 的 时 间 ， 罗 和 森 布 拉 
特 开创 性 努力 的 承诺 才 得 以 实现 。 


1. 在 空间 上 ， 人 们 发 现 细胞 特性 和 连接 性 在 皮层 不 同 部 分 之 间 存 在 差异 ， 这 可 能 反映 
了 不 同感 官 系统 的 特异 化 和 其 结构 的 层次 性 。 
2. P. C. Wason, “Self-Contradictions,” in P. N. Johnson-Laird and P. C. Wason, 


10. 


11. 


12. 


13. 


14. 


15. 


16. 


eds., Thinking: Readings in Cognitive Science(Cambridge: Cambridge University Press,1977). 


Norbert Wiener, Cybernetics, or Control and Communication in the Animal and the 
Machine(Cambridge, MA: MIT Press, 1948). 


O. G. Selfridge, “Pandemonium: A Paradigm for Learning,” in D. V. Blake and A. 
M.Uttley, eds., Proceedings of the Symposium on Mechanisation of Thought Processes(1959): 
511-529. 


参阅 Bernard Widrow and Samuel D. Stearns, Adaptive Signal Processing(Englewood 
Cliffs, NJ: Prentice-Hall, 1985). 


参阅 Frank Rosenblatt, Principles of Neurodynamics: Perceptrons and the Theory of Brain 
Mechanisms(Washington, DC: Spartan Books, 1962). 
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位 有 着 广泛 兴趣 的 博学 之 人 。 他 的 兴趣 之 ， 就 是 在 次 日 现象 发 生 时 ， 研究 如 何 通过 测 
量 远 处 恒星 表面 亮度 的 略微 下 降 ， 来 寻找 围绕 其 运转 的 行星 。 这 种 方法 现在 常用 于 检测 
银河 系 中 绕 着 恒星 运转 的 太阳 系 外 行星 。 


M. S. Gray, D. T. Lawrence, B. A. Golomb, and T. A. Sejnowski, “A Perceptron Reveals 
the Face of Sex,” Neural Computation7, no. 6 (1995): 1160-1164. 


B. A. Golomb, D. T. Lawrence, and T. J. Sejnowski, “SEXNET: A Neural Network 


Identifies Sex from Human Faces, 
Neural Information Processing Systems3 (1991): 572—577. 


波斯 纳 一 语 双关 ， 上 暗示 了 一 部 流行 的 电视 剧 《 法 网 》 Dragnet) ， 取 材 于 20 世 纪 50 
FE 代 来 自 洛杉矶 警 紧 局 的 罪犯 克星 。 

M. Olazaran. “A Sociological Study of the Official History of the Perceptrons 
Controversy,” Social Studies of Science26, no. 3 (1996): 611--659. 


in R. Lippmann, and D. S. Touretzky, eds.,Advances in 
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Vladimir Vapnik, The Nature of Statistical Learning Theory(New York: Springer1995), 
138. 


Weifeng Liu, José C. Principe, and Simon Haykin, Kernel Adaptive Filtering: 
AComprehensive Introduction(Hoboken, NJ: Wiley, 2010). 


根据 尤 德 科 夫 斯 基 在 “Artificial Intelligence as a Positive and Negative Factor in Global 
Risk” 中 的 记录 ， 训 练 集中 的 坦克 图 片 样本 都 是 在 阴 天 担 摄 的 ， 无 坦克 样本 图 片 都 是 在 晴 
天 拍摄 的 。 译 者 注 

Marvin Minsky and Seymour Papert, Perceptrons(Cambridge, MA: MIT Press,1969). 也 可 


参阅 Marvin Lee Minsky and Seymour Papert, Perceptrons: AnIntroduction to Computational 
Geometry, expanded ed. (Cambridge, MA: MITPress, 1988). 


据 加 州 大 学 圣迭戈 分 校 的 同事 Harvey Karten 称 ， 罗 森 布 拉 特 是 一 位 经 验 丰富 的 水 手 。 


\ 


救 得 了 他 。 


领 一 群 学 生 驾 船 


CP Axa, 20174 


8 游 。 船 好 像 撞 到 了 什么 ， 他 从 船上 沙 入 水 中 ， 但 当时 没有 一 个 
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04 
大 脑 式 的 计算 


“如 果 我 有 大 脑 *"， 这 是 1939 年 经 典 音 乐 电影 《绿野仙踪 》 (The 
Wizard of Oz) 里 稻草 人 的 唱词 。 但 稻草 人 不 知道 的 是 ， 他 早 就 已 经 有 
大 脑 了 ， 否 则 他 就 没 法 说 话 或 唱歌 。 但 真正 的 问题 是 ， 他 的 大 脑 只 诞生 
了 两 天 ， 里 面 没 有 经 验 ， 空 空 如 也 。 随 着 时 间 的 推移 ， 他 对 世界 有 了 充 
分 的 认识 ， 最 后 被 公认 为 是 奥 效 国 里 最 聪明 的 人 ， 聪 明 到 能 意识 到 自己 
的 局 限 。 而 铁皮 人 唱 的 是 , “如 果 我 能 有 心 ”。 他 和 稻草 人 为 心 和 脑 哪 个 
更 重要 而 争论 不 体 。 在 奥 北国 中 ， 认 知 和 情感 这 两 个 大 脑 的 产物 在 精妙 
的 平衡 中 共同 协作 ， 通 过 不 断 学 习 慢 慢 创 造 出 了 类 人 的 智慧 。 这 在 真实 
世界 里 亦 是 如 此 。 这 部 音乐 剧 也 引出 了 本 章 的 主题 : 如 果 人 工 智 能 拥有 
大 脑 和 心脏 。 


网 络 模型 能 够 模仿 智能 行为 


我 和 杰 弗 里 . 辛 顿 〈 见 图 4-1) 在 1979 年 他 组 织 的 一 次 研讨 会 上 相 
识 。 因 为 对 神经 网 络 模型 的 未 来 抱 有 相似 的 信念 ， 我 们 很 快 束 成 了 朋 
友 。 后 来 我 们 合作 研究 出 了 一 种 新 型 神经 网 络 模型 ， 叫 作 * 玻 尔 效 曼 
NL” (Boltzmann machine) 〈 将 在 第 7 章 中 进行 讨论 ) ， 并 就 此 打破 了 阻 
碍 一 代 人 研究 多 层 网 络 模型 的 僵局 。 


图 4-1 (A) 童年 时 期 的 杰 弗 里 。 埃 弗 里 斯 特 。 辛 顿 (Geoffrey Everest 

Hinton) 。 他 的 中 间 名 来 自 一 个 亲戚 乔治 。 埃 弗 里 斯 特 (George Everest) 。 乔 冶 
曾 在 印度 负责 勘测 工作 ， 并 想 出 了 测量 世界 上 最 高 峰 高 度 的 方法 ， 后 来 该 峰 以 他 的 
名 字 被 命名 为 Everest 〈 即 珠穆朗玛 峰 ) , (B) 1979 年 的 辛 顿 。 这 两 张 照片 的 拍摄 
时 间 间 隔 了 15 年 。 图 片 来源 : ARE e FHL 


每 隔 儿 年 ， 我 都 会 接 到 杰 弗 里 的 一 个 电话 ， 第 一 句 都 是 “我 想 清楚 
大 脑 是 怎么 工作 的 了 ”。 每 一 次 ， 他 都 会 告诉 我 一 个 巧妙 的 改进 神经 网 


络 模型 的 新 方案 。 和 莹 试 了 多 种 方案 并 进行 了 知 干 次 的 改进 后 ， 利 用 多 层 
神经 网 络 的 深度 学 习 才 在 手机 中 的 语音 识别 和 识别 照片 中 的 对 象 等 方面 
达到 了 与 人 类 相近 的 水 平 。 公 众 几 年 前 才 意 识 到 深度 学 习 的 这 些 能 
虽然 现在 这 些 已 经 是 众所周知 的 了 ， 但 这 一 过 程 却 花费 了 相当 长 的 时 
间 。 

杰 弗 里 在 剑桥 大 学 获得 了 心理 学 学 士 学 位 ， 并 在 爱丁堡 大 学 获得 了 
人 工 智能 博士 学 位 。 他 的 论文 导师 是 克里斯托弗 : 衣 古 特 - 希 金 斯 
(Christopher Longuet-Higgins) 。 希 金 斯 是 一 位 杰出 的 化 学 家 ， 他 发 明 
了 一 种 早期 的 联想 记忆 网 络 模型 。 那 时 ， 实 现 人 工 知 能 的 主流 方式 是 基 
T SERERE. BMR 5 ETT AI s UA Ae CLE 
用 这 种 方法 来 理解 人 类 的 认 知 能 力 ， 尤 其 是 语言 。 而 那 时 的 杰 弗 里 却 在 
逆流 而 行 。 没 有 人 能 预见 到 他 有 天 一 日 会 摘 清 楚 大 脑 一 一 或 者 至 少 类 似 
大 脑 的 某 种 东西 的 工作 原理 。 他 的 讲座 非常 引人入胜 ， 他 能 够 清楚 
地 解释 抽象 的 数学 概念 ， 连 没有 太 多 数学 基础 的 人 都 能 够 理解 和 掌握。 
他 的 机 智和 不 失 谦 进 的 幽默 感 令 人 倾倒 。 杰 弗 里 天 生 也 有 着 激进 的 一 
面 ， 特 别 是 当 涉 及 大 脑 的 话题 时 。 

我 们 第 一 次 见面 时 ， 杰 弗 里 还 是 加 州 大 学 圣迭戈 分 校 (UCSD) 的 
一 名 博士 后 研究 员 ， 在 由 大 卫 . 鲁 姆 哈 特 (David Rumelhart) 和 人 詹姆斯 
X w= (James McClelland) 领导 的 并 行 分 布 式 处 理 〈Parallel 
Distributed Processing, PDP) 实验 室 工 作 。 杰 弗 里 坚信 ， 将 由 简单 处 理 
单元 构成 的 网 络 、 并 行 工作 和 从 样本 中 学 习 相 结合 ， 是 理解 认 知 的 更 好 
的 方式 。 当 时 PDP 实 验 室 正在 探索 如 何以 分 布 在 网 络 中 的 大 量 节 点 活动 
的 形式 来 理解 文字 和 语言 ， 而 杰 弗 里 是 其 中 的 核心 人 物 。 


认 知 科学 中 理解 语言 的 传统 方法 是 基于 符号 表征 。 例 如 , “杯子 ”这 
个 词 是 代表 杯子 概念 的 符号 ， 不 是 特 指 茶 个 杯子 ， 而 古 指 所 有 杯子 。 符 
号 的 美妙 之 处 在 于 ， 捷 们 让 我 们 能 够 对 复 洒 的 概念 进行 压缩 ， 并 运用 它 
们 ; 而 符号 的 问题 在 于 ， 这 种 过 分 概括 的 表达 形式 使 其 很 难 在 现实 世界 
中 被 精确 地 搬 述 出 来 一 一 在 现实 世界 中 ， 杯 子 的 样式 、 形 状 和 尺寸 有 奢 


无 数 种 可 能 。 虽 然 我 们 大 多 数 人 在 看 到 杯子 的 时 候 都 能 很 快 认 出 它 是 什 
么 ， 但 没有 一 个 逻辑 程序 能 够 清楚 地 指认 哪个 东西 是 杯子 ， 哪 个 不 是 ， 
也 无 法 识别 出 图 片 中 的 杯子 。 正 义 、 和 平 之 类 的 抽象 概念 更 会 让 一 个 计 
算 机 程序 产生 困惑 。 另 一 种 方法 是 ， 通 过 大 量 神经 元 上 的 活动 模式 来 表 
示 杯 子 ， 如 此 一 来 束 可 以 捕捉 概念 之 间 的 相似 和 差异 点 。 这 赋予 了 符号 
可 以 反映 其 含义 的 丰富 的 内 部 结构 。 问 题 在 于 ， 在 1980 年 ， 还 没有 人 知 
道 如 何 创建 这 些 内 部 表征 。 


在 20 世 纪 80 年 代 ， 相 信和 网 络 模型 能 够 模仿 智能 行为 的 人 并 不 只 有 我 
和 杰 弗 里 。 全 世界 有 一 些 研究 人 员 ， 虽 然 大 多 都 在 独自 耕耘 ， 但 与 我 们 
有 着 共同 的 信念 ， 坚 持 不 懈 地 开 友 着 专门 的 网 络 模型 。 他 们 当中 的 一 
Ar. xL B EHE. KMS (Christoph von der Malsburg) ， 开 
R TPHA RIR, FE ACE TR A PH TCE BFE — FUE 
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(Kunihiko Fukushima) 发 明了 神经 认 知 机 (Neocognitron) , 三 一 个 基 
于 视觉 系统 架构 的 多 层 网 络 模型 ， 它 使 用 了 卷 积 滤波 堪 和 简单 形式 的 赫 
布 可 塑性 (Hebbian plasticity) ， 这 也 是 深度 学 习 网 络 的 一 个 直接 的 前 
E. SLAP EAR EK SY LIT BK RHET: (Teuvo 
Kohonen) ， 他 开发 了 一 个 自 组 织 网 络 ， 可 以 学 习 将 相似 的 输入 通过 不 
同 的 处 理 单元 聚 类 到 二 维 映射 中 例如 可 以 用 来 代表 不 同 的 语 首 )， 相 
似 的 输入 能 够 激活 输出 空间 的 相 邻 区 域 。 三 科 霍 宁 网 络 模型 的 一 个 主要 
优点 是 ， 它 不 需要 对 每 个 输入 的 类 别 进行 标记 《通过 生成 标记 来 训练 监 
督 网 络 的 花费 十 分 高 郧 ) o BE TNT D RUN scar, (AAMT E 
非常 精 民 。 

在 加 州 大 学 洛杉矶 分 校 的 朱 迪 亚 : 珀 尔 Judea Pearl) 引入 了 将 网 络 
中 的 结 氮 用 概率 联系 起 来 的 信念 网 络 ， 比 如 草地 变 湿 ， 是 因为 喷 水 需 打 
开 了 的 概率 ， 或 者 因为 下 十 了 的 概率 。 三 这 是 一 个 很 有 前 景 的 将 概率 网 
络 系统 化 的 早期 演 试 。 虽 然 珀 尔 的 网 络 模型 是 一 个 可 以 用 于 妃 踩 世间 因 
果 关 系 的 强大 框架 ， 但 手动 分 配 所 有 所 需 概率 已 经 被 证 明 是 不 切实 际 


的 。 能 够 自动 找到 概率 的 学 习 算法 依然 有 生 突 破 《〈 会 在 本 书 第 二 部 分 讨 
e. 

上 述 几 个 例子 和 其 他 基于 网 络 的 模型 都 有 一 个 共同 的 致命 缺陷 : E 
们 都 不 足以 解决 现实 世界 中 的 问题 。 而 且 ， 开 发 它们 的 先驱 者 很 少 与 他 
人 合作 ， 要 取得 进展 就 更 加 举步维艰 。 如 此 一 来 ， 麻 省 理工 学 院 、 斯 坦 
福 大 学 和 卡 内 基 - 梅 隆 大 学 的 一 流 人 工 智能 研究 中 心里 ， 就 没有 多 少 人 
看 好 神经 网 络 了 。 基 于 规则 的 符号 处 理 获得 了 大 部 分 资金 文 持 ， 并 完成 
了 大 部 分 的 相关 研究 工作 。 


神经 网 络 先驱 者 


1979 年 ， 杰 弗 里 : 辛 顿 和 布 明 大 学 心理 学 家 詹姆斯 -安德森 在 加 利 福 
尼 亚 的 拉 荷 亚 市 组 织 了 联想 记忆 的 并 行 模型 研讨 会 。 三 大 多 数 参 与 者 互 
相 之 间 都 是 第 一 次 见面 。 我 很 惊讶 自己 能 够 受 邀 参加 研讨 会 ， 我 那 会 儿 
只 是 哈佛 大 学 医学 院 神经 生物 学 的 博士 后 研究 员 ， 而 且 只 在 一 些 不 太 知 
名 的 期 刊 上 发 表 了 一 些 关 于 神经 网 络 的 技术 论文 。 杰 弗 里 后 来 告诉 我 ， 
他 曾经 与 大 卫 : 马 尔 (David Marr) ( 见 图 4-2， 中 间 〉 审核 过 我 的 背 
景 。 马 尔 是 神经 网 络 建 模 中 的 一 位 项 兴 人 物 ， 也 是 MIT AI Lab 的 一 名 有 
远见 的 领导 者 。1976 年 ， 我 在 怀俄明 州 杰 元 进 霍 尔 市 (Jackson Hole) 
的 一 个 小 型 研讨 会 上 第 一 次 遇 到 了 马尔 。 我 们 有 相似 的 兴趣 ， 他 还 曾 邀 
请 我 去 MIT 人 参观， 并 在 那里 做 一 次 演讲 。 


ie, a, 
图 4-2 (Ax) HAR - KHER (Tomaso Poggio) 、 大 卫 。 马 尔 和 弗朗西斯 。 克 里 
克 (Francis Crick) 在 加 利 福 尼 亚 远足 的 途中 (照片 拍摄 于 1974 年 ) 。 弗 朗 西 斯 很 
享受 与 来 访 者 在 各 种 科学 问题 上 进行 长 时 间 的 讨论 。 图 片 来 源 : 索 尔 克 生 物 研究 
所 。 


马尔 从 剑桥 大 学 获得 了 数学 学 士 学 位 和 生理 学 博士 学 位 。 他 的 博士 
生 导 师 是 生理 学 家 吉尔 斯 : 布 林 德 利 (Giles Brindley) ， 专 门 研究 视网膜 
和 色觉， 但 在 音乐 理论 和 过 起 功能 障碍 治疗 领域 也 有 较 高 的 知名 度 。 二 
尔 斯 有 一 件 很 出 名 的 逸事 一 一 在 内 华 达 州 拉 斯 维 加 斯 举行 的 美国 泌尿 外 
科学 会 (The American Urological Association) 会 议 上 发 表演 讲 时 ， 他 
脱 掉 了 裤子 ， 亲 自 证 明了 化 学 诱导 动 起 的 有 效 性 。 马 尔 的 博士 论文 插 述 
了 一 个 小 脑 神经 网 络 学 习 模 型 ， 这 块 区 域 与 快速 运动 控制 有 关 。 他 还 开 
发 了 海马 体 和 大 肪 皮层 的 神经 网 络 模型 ， 撰 写 的 大 量 相关 文章 也 都 被 证 
明 十 分 有 预见 性 。' 坟 
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当时 正在 从 事 视 觉 研究 工作 ， 并 和 凭借 他 的 个 人 魅力 吸引 到 了 一 批 有 才华 
的 学 生 跟 他 一 起 工作 。 他 妃 求 一 种 自 下 而 上 的 策略 ， 从 视网膜 开始 入 手 
《在 那里 光 被 转换 成 电信 号 ) ， 并 探求 视网膜 中 的 信号 如 何 编码 对 象 的 
特征 ， 以 及 视觉 皮层 如 何 表示 物体 的 表面 和 边界 。 他 和 托 马 索 : 波 吉 奥 


为 立体 视觉 开发 了 一 种 带 有 反馈 连接 的 递归 神经 网 络 模型 ， 通 过 检测 双 
眼看 到 的 随机 点 立体 图 中 点 的 图 像 的 轻微 横向 位 移 ， 来 测量 对 象 的 深 

度 。 三 双眼 深度 感知 是 三 维 立 体 图 产生 效果 的 基础 。 三 马尔 于 1980 年 
因 白 血 病 去 世 ， 年 仅 35 岁 。 两 年 之 后 ， 他 的 遗 作 《视觉 》 (Vision) 得 
以 发 表 。 三 具有 讽刺 意味 的 是 ， 尽 管 马 尔 在 他 的 视觉 研究 中 采取 了 自 下 
而 上 的 策略 ， 即 从 视网膜 开始 并 对 视觉 处 理 的 每 个 后 续 阶 段 进 行 建 模 ， 

他 的 著作 却 以 倡导 自 上 而 下 的 策略 而 闻名 一 一 首先 对 要 解决 的 问题 进行 
计算 分 析 ， 然 后 构建 算法 来 解决 问题 ， 最 后 通过 硬件 来 实现 算法 。 然 

而 ， 尽 管 这 可 能 是 在 解决 问题 后 对 问题 进行 解释 的 一 种 有 效 途径 ， 但 对 
于 揭 开 大 脑 秘密 却 算 不 上 是 个 好 方法 。 难 点 就 在 第 一 步 一 一 要 判断 大 脑 
正在 解决 什么 问题 。 我 们 的 直觉 往往 具有 误导 性 ， 特 别 是 在 视觉 方面 ; 

我 们 擅长 观察 ， 但 大 脑 对 我 们 隐藏 了 所 有 的 细节 。 因 此 ， 纯 粹 的 自 上 而 
下 策略 问题 重重 ， 但 纯粹 自 下 而 上 的 策略 也 同样 如 此 【后 面 的 章节 将 探 
讨 通 过 学 习 算法 ， 由 内 而 外 理解 视觉 工作 原理 的 进展 ) 。 


弗朗西斯 : 克 里 克也 参加 了 辛 顿 和 安德森 在 拉 蓓 亚 的 研讨 会 ， 他 曾 

在 1953 年 与 同 在 剑桥 大 学 的 詹姆斯 : 沃 森 James Watson) 共同 发 现 了 
DNA 的 双 螺 旋 结 构 。 在 20 多 年 后 的 1977 年 ， 克 里 克 加 入 了 位 于 拉 蓓 亚 的 
过 尔 克 生物 研究 所 ， 并 将 研究 重心 转移 到 神经 科学 领域 。 他 会 邀请 研究 
人 员 来 访 ， 并 天神 经 科学 的 许多 课题 ， 特 别 是 视觉 方向 ， 进 行 长 时 间 的 
讨论 ， 马 尔 就 是 其 中 一 位 访问 者 。 在 马尔 著作 的 末尾 ， 有 一 段 苏 格拉 底 
WSR AD ee, SURREAL, RET SK Soe Boe 
论 。1989 年 我 如 入 索 尔 元 研究 所 后 ， 也 开始 意识 到 与 元 里 元 对 话 的 重要 
价值 。 


齐 治 : 布 尔 与 机 器 学 习 


1854 年 ， 一 位 自学 成 才 、 有 5 个 女儿 (有 几 个 很 有 数学 天 分 ) WA 
国教 师 ， 写 了 一 本 名 为 《思维 规律 的 研究 》 (An Investigation of the 


Laws of Thought) 的 书 ， 它 是 “布尔 逻辑 ”的 数学 基础 。 乔 治 :布尔 对 于 如 
何 使 用 逻辑 表达 式 的 见解 是 数字 计算 的 核心 ， 也 是 20 世 纪 50 年 代 人 工 智 
PEM FARRE. AEE FENER h, RA REMA 
文 布尔 曾经 使 用 过 并 在 家 族 中 代 代 相传 的 笔 。 

在 准备 一 次 演讲 时 ， 我 发 现 布 尔 这 本 著作 的 全 称 是 《思维 规律 的 研 
究 一 一 逻辑 与 概率 的 数学 理论 基础 》。 虽 然 其 中 让 人 印象 最 深刻 的 是 对 
逻辑 的 洞察 ， 但 这 本 书 对 于 概率 论 也 有 很 多 讨论 。 概 率 论 是 现代 机 器 学 
习 的 核心 ， 在 描述 现实 世界 中 的 不 确定 性 方面 比 逻辑 方法 要 好 用 得 多 。 
所 以 布尔 也 是 机 器 学 习 的 先驱 之 一 。 有 些 讽刺 的 是 ， 他 思想 中 被 遗 态 的 
一 面 ， 在 250 年 后 因为 他 的 玄孙 才 开 始 绽放 。 布 尔 一 定 会 为 杰 弗 里 感到 
骄傲 的 。 
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图 4-3 尽管 乔治 。 布尔 的 《思维 规律 的 研究 》 以 研究 思维 的 基础 一 一 逻辑 而 闻名 ， 


但 请 注意 ， 它 也 探讨 了 概率 的 问题 。 这 两 个 数学 领域 分 别 启发 了 在 符号 处 理 和 机 器 
学 习 方 面 的 人 工 智 能 研究 方法 。 


利用 神经 科学 理解 大 脑 


在 普林斯顿 大 学 物理 系 攻读 研究 生 时 ， 我 兽 通过 写 下 非 线性 神经 元 
交互 网 络 的 方程 式 并 分 析 和 它们 来 解决 如 何 理解 大 脑 的 问题 ， 三 吕 像 物理 
学 家 几 个 世纪 以 来 使 用 数学 来 理解 重力 、 光 、 电 、 磁 和 核能 的 本 质 一 
样 。 每 天 晚上 睡 前 ， 我 都 会 祈祷:“ 亲 爱 的 主 ， 让 方程 式 是 线性 的 ， 噪 
声 呈 高 斯 分 布 ， 变 量 是 可 分 的 吧 。” 这 些 是 能 产生 分 析 解 法 的 条 件 ， 但 
是 因为 神经 网 络 方程 式 是 非 线性 的 ， 与 之 相关 的 噪声 是 非 高 斯 分 布 的 ， 
而 且 变量 是 不 可 分 的 ， 所 以 它们 并 没有 明确 的 解 。 除 此 之 外 ， 当 时 想 要 
在 计算 机 上 模拟 大 型 网 络 的 方程 是 不 可 能 的 。 更 令 人 肖 表 的 是 ， 我 甚至 
不 确定 我 的 方程 式 到 底 对 不 对 。 

在 普林斯顿 上 课时 ， 我 发 现 神 经 科学 家 们 正在 取得 令 人 振奋 的 进 
展 ， 这 个 年 轻 的 学 科 领 域 45 年 前 才 初 露 端倪 。 在 此 之 前 ， 生 物 学、 心理 
学 、 解 剖 学 、 生 理学 、 药 理学 、 神 经 学 、 精 神 病 学 、 生 物 工程 学 等 许多 
学 科 都 对 大 脑 进 行 了 研究 。 在 1971 年 神经 科学 学 会 (The Society for 
Neuroscience) 的 第 一 次 会 议 上 ， 弗 农 .蒙特 卡 索 (Vernon Mountcastle ) 
亲自 在 门口 迎接 了 每 一 位 与 会 者 。 注 今天 ， 这 个 学 会 有 4 万 多 名 成 员 ， 
大 约 3 万 人 通常 会 出 席 年 会 。 我 于 1982 年 在 约翰 . 霍 普 金 斯 大 学 的 生物 物 
理 系 开始 我 的 第 一 份 工 作 时 ， 遇 到 了 这 位 传奇 的 神经 生理 学 家 ， 他 发 现 
了 皮层 柱 ， 而 且 有 着 强大 的 人 格 魅 力 。 三 我 随后 与 蒙特 卡 索 密切 合作 ， 
计划 建立 约翰 : 霍 普 金 斯 大 学 的 脑 研究 所 。 这 是 世界 上 该 领域 第 一 个 研 
究 机 构 ， 成 立 于 1994 年 。 

对 于 大 脑 的 研究 存在 着 许多 不 同 的 层级 〈( 见 图 4-4) ， 每 个 层级 都 
有 着 重要 的 发 现 ， 而 要 整合 所 有 这 些 知识 是 一 个 琼 手 的 问题 。 这 让 人 想 
起 了 关于 矮 胖 子 的 童谣 : 
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图 4-4 大 脑 研 究 中 的 层级 。 (E) 空间 尺度 范围 从 底部 的 分 子 水 平 到 顶部 的 整个 中 
枢 神 经 系统 (centralnervous systems, CNS) 。 我 们 已 经 对 每 一 个 层级 都 有 了 深入 
的 了 解 ， 但 对 具有 少量 彼此 高 度 相关 的 神经 元 的 网 络 层 级 ， 即 由 人 工 神经 网 络 进行 
模拟 的 层级 ， 却 知之 黄 少 。 (A) 突 触 〈 图 片 下 方 ) 的 示意 图 ， 视 觉 皮 层 中 的 简单 
细胞 结构 〈 图 片 中 间 ) 以 及 视觉 皮层 中 皮层 区 域 的 层次 结构 《图 片上 方 ) 。 图 片 改 
编 自 : P. S. Churchland, T.J. Sejnowski, “Perspectives on Cognitive 
Neuroscience" , Science, 242 (1988) : 741-745, Figure 1. 


尽管 神经 科学 家 非常 善于 解剖 大 脑 ， 但 再 把 这 些 部 分 拼 回 去 就 没 那 
么 容易 了 。 这 一 过 程 需要 做 加 法 而 不 是 减法 ， 而 这 正 是 我 想 要 实现 的 。 
但 首先 我 必须 知道 各 个 部 分 都 是 什么 ， 毕 竟 大 脑 的 构成 太 复杂 了 。 

查尔斯 : 格 罗 斯 Charles Gross) 教授 是 在 普林斯顿 研究 猴子 视觉 系 
统 的 心理 学 家 。 在 他 的 一 个 研究 生 讲座 上 ， 我 对 哈佛 大 学 医学 院 的 大 卫 
: 体 伯 尔 和 托 斯 坦 ' 威 译 尔 在 记录 视觉 皮层 里 单个 神经 元 方面 所 取得 的 进 
展 印 象 深刻 。 如 果 物 理学 不 是 理解 大 脑 工 作 原 理 的 捷径 ， 那 么 有 可 能 是 
神经 科学 。 由 于 他 们 在 初级 视觉 皮层 中 的 开创 性 工作 ， 休 伯 尔 和 威 泽 尔 
共同 获得 了 1981 年 的 诡 贝 尔 生 理学 或 医学 奖 。 (他 们 的 发 现 是 深度 学 习 
的 基础 ， 接 下 来 会 在 第 5 章 中 讨论 ， 也 是 第 9 章 的 主题 。) 


大 脑 如 何 处 理 问题 


1978 年 在 普林斯顿 获得 物理 学 博士 学 位 后 ， 我 参加 了 位 于 伍兹 霍 尔 
市 的 海洋 生物 学 实验 室 举办 的 为 期 10 周 的 深度 实验 神经 生物 学 夏季 课 
程 。 上 课 的 第 一 天 ， 我 穿着 一 件 赣 色 休 闲 外 套 和 恬 泛 得 十 分 平整 的 卡其 
色 裤 子 ， 却 被 读 程 讲师 之 一 的 斯 托 里 : 兰 迪 斯 (Story Landis) 市 到 一 
边 ， 她 给 我 来 了 我 人 生 中 的 第 一 条 牛仔 迟 。 斯 托 里 当时 是 哈佛 大 学 神经 
生物 学 系 的 教员 ， 后 来 在 美国 国立 卫生 研究 院 《〈 以 下 简称 NIH) 担任 国 
家 神经 疾病 和 中 风 研 究 所 主任 。 一 想起 她 ， 我 就 会 想到 这 件 事 。 

嗜 期 课程 结束 后 ， 我 在 9 月 份 又 待 了 几 个 星期 ， 想 要 完成 我 之 前 开 
局 的 一 个 项 目 。 次 鱼 和 鳃 形 目 (包括 鳃 科 〉 能 够 感知 非常 微弱 的 电场 ; 
事实 上 ， 它 们 甚至 可 以 感受 到 横 罕 大 西洋 的 1.5 伏 电池 的 信号 。 和 凭借 这 


种 第 六 感 ， 鳃 鱼 可 以 通过 它们 在 地 球 磁场 中 运动 产生 的 微弱 电信 号 来 识 
别 方 向， 而 这 一 过 程 产生 的 旱 伏 级 的 信号 可 以 被 它们 的 电 接收 顷 感 知 。 
我 在 项 目 中 获得 了 鳃 鱼 电 感受 占 令 人 叹为观止 的 电子 显微镜 图 像 。' 二 


我 正在 伍兹 霍 尔 Loeb Hall 大 楼 的 地 下 室 拍照 的 时 候 ， 意 外 地 接 到 了 
哈佛 医学 院 神经 生物 学 系 创 始 人 斯 带 分 : 库 夫 勒 〈Stephen Kuffler) 的 一 
个 电话 。 库 夫 勒 是 神经 科学 领域 的 传奇 人 物 ， 成 为 他 实验 室 里 的 一 名 博 
士 后 研究 员 ， 是 我 人 生 的 一 个 转折 点 。 在 搬 去 波士顿 之 前 ， 我 完成 了 与 
导师 艾 伦 : 盖 尔 普 林 CAlan Gelperin) 共同 进行 的 一 个 绘制 大 量 蛤 的 足 神 
经 节 代 谢 活动 的 短期 博士 后 项 目 。 CUBES. SERRE MSIE SZ AS EH 
自主 地 想到 它 的 大 脑 。 艾 伦 师 承 上 自 一 系列 研究 动物 行为 神经 基础 的 神经 
科学 家 。 我 所 学 到 的 是 ， 无 葫 椎 动物 中 所 谓 的 简单 神经 系统 ， 实 际 上 比 
进化 阶梯 上 那些 更 高 级 动物 器 官 里 的 更 复杂 ， 因 为 无 疹 椎 动物 必须 依赖 
更 少 的 神经 元 存活 ， 每 个 神经 元 都 是 高 度 特 异化 的 。 我 也 开始 明日 ， 没 
有 行为 支持 ， 神 经 科学 的 任何 东西 都 讲 不通 。 三 


在 库 夫 勒 的 实验 室 里 ， 我 研究 了 牛蛙 交感 神经 节 一 个 突 触 的 迟 慢 兴 
FERS LE) ， 筷 的 反应 速度 是 位 于 同一 神经 元 的 邦 一 个 突 触 
上 的 快速 的 毫秒 级 兴奋 性 反应 的 1160000。 三 这 些 神 经 节 含有 形成 牛蛙 
目 主 神经 系统 输出 的 神经 元 ， 可 以 对 腺 体 和 内 部 器 官 进行 调节 。 在 刺 诅 
到 突 触 的 那个 神经 后 ， 我 有 充分 的 时 间 去 倒 杯 咖 啡 再 返回 座位 一 一 从 突 
触 输入 到 神经 元 达到 峰值 会 花 上 1 分 钟 左右 ， 然 后 神经 元 会 再 用 10 分 钟 
恢复 到 初 态 。 突 触 是 大 脑 中 基本 的 计算 单元 ， 而 突 触 类 型 的 多 样 性 不 可 
小 舰 。 这 次 经 历 告 诉 我 ， 复 杂 性 可 能 不 是 通 回 理解 大 脑 功能 的 坦途 。 为 
了 理解 大 脑 ， 我 必须 了 解 ， 大 自然 如 何 通 过 进化 早早 就 解决 了 大 量 的 问 
题 ， 并 将 这 些 解决 方案 自 下 而 上 地 传递 给 进化 链 上 的 物种 。 我 们 大 脑 中 
的 离子 通道 在 几 十 亿 年 前 的 细菌 体内 就 存在 了 。 


图 4-5 牛蛙 交感 神经 节 细 胞 。 作 为 神经 元 ， 这 些 细 胞 会 接受 来 自 养 风 的 输入 并 激活 
牛蛙 皮肤 中 的 腺 体 。 它 们 体积 很 大 ， 产 生 的 电信 号 很 容易 就 能 被 微 电 极 记录 下 来 
(图 片 底部 ) 。 它 们 没有 树 突 ， 可 以 通过 神经 〈 图 片 项 部 的 背景 ) 或 化 学 物质 CH 
片 顶部 ， 一 对 微量 移 液 器 ) 进行 电 刺 激 。 和 刺激 神经 会 引发 三 种 不 同 的 突 触 信号 : 一 
种 是 快速 的 毫秒 级 兴奋 性 反应 ， 类 似 于 神经 肌肉 连接 处 的 兴 杏 反应 ; 一 种 是 较 慢 的 
兴奋 性 反应 ， 在 10 秒 后 达到 峰值 ， 持 续 1 分 钟 ; 还 有 一 种 是 迟 慢 兴 奋 性 反应 ， 在 1 分 
钟 后 达到 峰值 ， 持 续 10 分 钟 。 这 说 明 即 使 是 最 简单 的 神经 元 也 存在 较 宽 的 反应 时 间 
跨度 。 图 片 来 源 : S. W. Kuffler, T. J. Sejnowski, “Peptidergic and 
Muscarinic Excitation at Amphibian Sympathetic Synapses” Journal of 
Physiology341 (1983) : 257-278, plate l. 


计算 机 科学 的 兴起 


但 是 如 果 物 理学 太 简 单 ， 生 物 学 又 过 于 复杂 ， 我 应 该 在 哪里 寻求 指 
导 呢 ?与 物理 学 中 的 力 不 同 ， 大 脑 回路 有 一 个 目的 ， 就 是 解决 计算 问 
题 ， 比 如 看 见 和 移动 ， 以 便 在 世界 上 生存 。 即 使 是 一 个 关于 神经 元 如 何 
工作 的 完美 的 物理 模型 ， 也 不 会 告诉 我 们 它 的 目的 是 什么 。 神 经 元 负责 
处 理 携带 信息 的 信号 ， 而 计算 则 是 试图 理解 大 自然 这 一 过 程 中 缺失 的 环 
节 。 我 在 过 去 的 40 年 中 一 直 在 退 求 这 一 目标 ， 并 开创 了 一 个 新 的 领域 ， 
叫 作 “计算 神经 科学 ”。 

在 加 州 大 学 圣迭戈 分 校 结束 博士 后 研究 员工 作 之 后 ， 杰 弗 里 :六 顿 
返回 了 英格兰 ， 在 剑桥 医学 研究 理事 会 (MRC) 的 应 用 心理 学 部 门 找 
到 了 一 个 研究 职位 。1981 年 的 一 天 ， 他 在 凌晨 两 点 接 到 一 个 电话 ， 对 方 
自称 是 加 利 福 尼 亚 州 帕 洛 阿尔 托 市 《Palo Alto) 系统 开发 基金 会 总 裁 查 
尔 斯 :史密斯 (Charles Smith) 。 三 史密斯 表示 ， 他 的 基金 会 希望 为 潜 
在 的 、 有 前 景 的 ， 但 风险 较 高 、 成 功 和 希望 渺茫 的 研究 提供 资金 ， 而 有 人 
强烈 推荐 了 术 弗 里 。 杰 弗 里 不 确定 这 件 事 可 不 可 靠 。 作 为 我 的 一 个 好 朋 
友 ， 杰 上 弗 里 同 史 密斯 提 到 了 我 的 研究 ， 告 诉 他 我 的 研究 成 功 的 概率 比 他 


的 还 要 小 。 


基金 会 是 货真价实 的 ， 还 为 我 们 提供 了 第 一 笔 球 项 ， 这 大 大 加 快 了 
我 们 的 研究 进度 。 我 们 可 以 买 得 起 运算 能 力 更 强大 的 电脑 ， 并 吸引 更 多 


的 学 生 加 入 。 在 杰 弗 里 加 入 位 于 匹 效 您 的 卡 内 基 - 梅 隆 大 学 时 ， 他 用 一 
台 炫 酷 的 Lisp 机 三 取代 了 他 的 二 代 毕 果 电 脑 ， 而 在 我 搬 到 巴尔 的 摩 的 约 
翰 ' 堆 普 金 斯 大 学 时 ， 我 短暂 地 拥有 过 比 整 个 计算 机 科学 系 还 要 多 的 计 
算 能 力 。 三 我 还 购买 了 第 一 个 将 霍 普 金 期 与 阿 由 网 CARPANET, HX 
网 的 前 身 ) 连接 起 来 的 调制 解 调 右 ， 这 样 术 弗 里 和 我 就 可 以 互相 发 送 电 
子 邮 件 了 。 能 够 在 新 的 起 点 有 个 好 的 开端 ， 我 们 都 感到 很 满意 《图 4 


图 4-6 我 和 杰 弗 里 。 辛 顿 在 波士顿 讨论 视觉 网 络 模型 〈( 照 片 拍摄 于 1980 年 ) 。 这 是 
杰 弗 里 和 我 在 拉 荷 亚 的 并 行 模型 研讨 会 上 见面 的 一 年 之 后 。 又 过 了 一 年 ， 我 在 位 于 
巴尔 的 摩 的 约翰 。 霍 普 金 斯 大 学 成 立 了 自己 的 实验 室 ， 而 杰 弗 里 在 匹 次 堡 的 卡 内 基 - 
梅 隆 大 学 也 创立 了 他 的 研究 小 组 。 图 片 来源 : AGB $M, 
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在 我 上 幼儿 园 之 前 ， 最 早期 的 记忆 中 有 这 么 一 个 场景 
堆 拼 图 ， 以 形状 、 颜 色 和 图 案 为 线索 来 匹配 它们 。 我 的 父母 会 在 聚会 上 
夸耀 他 们 还 在 蹦 中 学 步 的 儿子 能 够 快速 熟练 地 完成 拼图 ， 而 那些 朋友 党 
党 对 此 表现 得 很 惊讶 。 我 那 时 还 没有 意识 到 ， 我 的 大 脑 正 在 完成 它 最 擅 
长 的 工作 一 一 通过 模式 识别 来 解决 问题 。 科 学 充满 了 各 种 各 样 的 问题 ， 
就 像 拼 图 中 缺失 的 部 分 和 对 拼合 后 画面 的 模糊 提示 。 大 脑 如 何 解决 问 
fl, Aik a. 

QUE 2a (AKER (The Helmholtz Club) 是 南 加 州 视觉 科学 家 们 组 
成 的 一 个 小 团体 。 这 些 科 学 家 来 自 加 州 大 学 圣 迭 龙 、 洛 杉 矶 和 尔 湾 三 个 
分 校 ， 以 及 加 州 理工 学 院 和 南 加 州 大 学 ， 他 们 每 个 月 都 会 找 一 个 下 午 在 
加 州 大 学 尔 湾 分 校 会 面 。 三 赫 尔 曼 . 汉 : 玄 姆 霍 效 (Hermann von 
Helmholtz) 是 19 世 纪 的 一 位 物理 学 家 和 医生 ， 他 发 明了 一 套 关 于 视觉 
的 数学 理论 和 实验 方法 ， 构 成 了 我 们 当今 理解 视觉 感知 的 基础 。 作 为 俱 
乐 部 的 秘书 ， 我 要 负责 从 组 织 外 部 邀请 一 位 嘉宾 ， 为 这 15~20 名 成 员 以 
及 他 们 的 客人 进行 演讲 ， 然 后 由 俱乐部 成 员 做 第 二 个 演讲 。 演 讲 是 互动 
性 质 的 ， 大 家 有 充足 的 时 间 进 行 深 入 讨论 。 有 一 次 ， 一 位 外 部 演讲 人 对 
那些 提出 问题 的 人 表现 出 了 惊讶 : “他 们 还 真是 喜欢 刨 根 问 底 。” 这 些 每 
月 的 例会 让 参与 者 收获 了 顶尖 思维 ， 几 乎 就 是 一 党 半 视觉 领域 的 大 师 
UE 

视觉 是 我 们 最 敏锐 ， 也 是 被 研究 得 最 多 的 一 种 感官 。 前 额 下 方 的 眼 
睛 带 给 了 我 们 精准 敏锐 的 双眼 深度 知觉 ， 而 我 们 的 大 脑 皮层 中 一 半 的 部 


分 都 是 负 员 视觉 的 。“ 眼 见 为 实 ” 这 人 句 成 语 就 充分 体现 了 视觉 的 特殊 地 

位 。 然 而 ， 也 正 是 这 种 良好 的 视觉 ， 导 致 我 们 完全 忽视 了 视觉 系统 背后 
巨大 的 计算 复杂 性 ， 大 自然 经 过 数 亿 年 的 进化 才 解 决 了 这 个 问题 (如 第 
QE TIA) 。 视 觉 皮层 的 组 织 结构 为 最 成 功 的 深度 学 习 网 络 提 供 了 灵 
Ik. 


在 1/10 秒 内 ， 我 们 视觉 皮层 中 的 100 亿 个 神经 元 并 行 工 作 ， 能 够 在 
杂乱 的 场景 中 识别 一 个 杯子 ， 即 全 我们 以 前 可 能 从 未 见 过 那个 杯子 ， 也 
不 论 它 在 什么 位 置 ， 多 大 尺寸 ， 以 什么 角度 面 对 我 们 。 在 普林斯顿 大 学 
读 研究 生 时 期 ， 我 对 视觉 研究 十 分 着 迷 ， 并 且 在 查尔斯 - 格 罗斯 的 实验 
室 工作 了 一 个 夏天 。 他 研究 过 猴子 的 下 显 叶 皮层 〈( 见 图 5-1)〉 ， 并 在 那 
里 友 现 了 对 复 森 对 象 ， 如 脸 部 ， 以 及 着 名 的 马桶 刷 ， 产 生 反 应 的 神经 
JU. VL 


在 哈佛 医学 院 神经 生物 学 系 的 时 候 ， 我 兽 与 斯 带 芬 . 库 夫 勒 一 起 工 
作 ， 他 之 前 发 现 了 视网膜 中 的 神经 节 细 胞 编码 视觉 场景 的 方式 。 如 果 不 
是 在 1980 年 过 世 ， 他 可 能 会 与 大 卫 : 休 伯 尔 和 托 斯 坦 : 威 泽 尔 一 起 分 享 
1981 年 的 诺 贝 尔 生 理学 或 医学 奖 。 在 1989 年 转 到 索 尔 克 研 究 所 后 ， 我 开 
始 与 弗朗西斯 . 克 里 克 合作 。 他 于 1977 年 将 研究 重点 从 分 子 遗传 学 转向 
神经 科学 ， 并 专注 于 寻找 视觉 意识 的 神经 关联 。 能 够 和 当时 最 伟大 的 视 
觉 科 学 家 之 一 共事 ， 我 感到 万 分 荣幸 。 


功能 类 别 判断 ， 
做 出 决定 简单 的 视觉 形式 、 
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图 5-1 猕猴 视觉 系统 的 信息 流动 示意 图 。 箭 头 表示 视觉 区 域 的 投影 信息 从 视网膜 开 
始 ， 到 达 视 觉 处 理 的 每 个 阶段 都 有 若干 毫秒 的 延迟 。 猕 猴 的 视觉 感知 与 我 们 人 类 的 
相似 ， 我 们 也 有 相同 的 视觉 处 理 阶 段 。LGN Clateralgeniculate nucleus) : 外 便 
膝 状 体 ; Vi: 初级 视觉 皮层 ; V2: 次 级 视觉 皮层 ; V4: 视觉 区 4; AIT 和 PIT: ATF RM 
叶 皮 层 和 后 下 矣 叶 上 皮层; PFC: 前 额 叶 皮 层 ; PMC: 前 运动 皮层 ; MC: 运动 皮层 。 图 
片 来 源 : S. J. Thorpe and M. Fabre-Thorpe, “Seeking Categories in the 
Brain,” Science291, no. 5502 (2001): 261. 


人 有 眼 是 如 何 看 到 东西 的 


如 果 我 们 跟随 图 像 生成 的 信号 进入 大 脑 ， 就 可 以 看 到 信号 是 如 何在 
两 个 连续 的 处 理 阶段 之 间 被 不 断 转 换 的 〈 见 图 5-1) 。 视 觉 始 于 视 网 
膜 ， 在 那里 ， 光 感受 器 将 光 转 换 为 电信 号 。 视 网 膜 内 有 两 层 神 经 元 ， 它 
们 在 空间 和 时 间 维 度 中 处 理 视 觉 信号 ， 最 后 通过 神经 节 细 胞 投射 到 视 神 


经 。 


| m. 
图 5-2 (AE SUE) 斯 蒂 芬 。 库 夫 勒 、 托 斯 坦 。 威 泽 尔 和 大 卫 。 休 伯 尔 。 哈 佛 医学 
院 神 经 生物 学 系 成 立 于 1966 年 ， 这 张 照片 拍摄 于 成 立 后 不 久 。 工 作 日 里 ， 我 从 来 没 
有 见 过 他 们 中 的 任何 一 个 人 在 实验 室 里 戴 着 领带 ， 所 以 这 张 照片 一 定 是 在 特殊 场合 
拍摄 的 。 图 片 来 源 : 哈佛 医学 院 。 
在 1953 年 一 个 结果 对 所 有 哺乳 动物 都 成 立 的 经 典 实验 中 ， 斯 带 芬 : 

库 夫 勒 〈 见 图 5-2， 左 ) 记录 了 活 猫 的 视网膜 输出 神经 元 对 光斑 刺激 的 
放电 啊 应 。 他 在 报告 中 写 道 ， 当 光斑 作用 于 某 些 输出 神经 元 的 中 心 区 域 
时 ， 会 出 现 放 电 增 加 的 现象 ， 而 当 光 斑 作 用 于 另 一 些 输出 神经 元 的 中 心 


区 域 时 ， 却 出 现 了 放电 减少 的 现象 。 然 而 ， 在 中 心 的 外 沿 区 域 的 表现 恰 
恰 相 反 : 给 光 中 心 带 有 撤 光 外 沿 ， 撤 光 中 心 带 有 给 光 外 沿 〈 见 图 5- 

3) 。 神 经 节 细 胞 对 光斑 模式 的 反应 被 称 为 "感受 野 ”(receptive field) Fr 
性 。 


中 心 给 光 放 电 中 心 撤 光 放 电 


图 5-3 视网膜 中 神经 节 细胞 的 响应 特性 。 这 两 个 环形 代表 了 视网膜 中 两 种 对 大 脑 发 
送 编 码 信 息 ， 从 而 让 人 产生 视觉 的 神经 节 细 胞 类 型 。 对 于 中 心 给 光 放 电 Con- 
center) 类 型 ， 光 斑 投 射 到 中 心 “ 给 光 区 域 ” (+) , FAA “MARR” (-) 
无 光 时 ， 会 产生 一 系列 放电 尖峰 。 而 中 心 撤 光 放电 (off-center) 类 型 则 相反 ， 光 
BEA SURE] H), HAPS C) 无 光 时 ， 会 产生 一 系列 放电 尖峰 。 光 腿 的 变化 
包含 了 研究 对 象 周转 的 移动 刺激 和 对 比 边 界 的 重要 信息 。 这 些 特性 是 斯 蒂 芬 。 库 夫 
勒 于 1953 年 发 现 的 。 

库 夫 勒 的 主要 研究 兴趣 是 神经 元 之 间 突 触 的 特性 。 我 曾经 问 他 ， 是 
什么 让 他 对 研究 视网膜 产生 了 兴趣 。 他 说 ， 他 之 前 的 实验 室 隶 属于 约翰 
. 霍 普 金 斯 大 学 的 威 尔 默 眼科 研究 所 (Wilmer Eye Institute) ， 他 的 研究 
要 是 跟 眼科 无 关 ， 他 会 对 此 感到 不 安 。 他 在 对 视网膜 中 单个 神经 节 细 胞 
的 研究 中 做 了 些 开 创 性 的 工作 ， 随 后 把 这 个 研究 项 目 交 给 了 他 实验 室 的 
两 位 博士 后 一 一 大 卫 : 休 伯 尔 和 托 斯 坦 : 威 泽 尔 ， 并 建议 他 们 追踪 信号 进 
入 大 脑 的 过 程 。1966 年 ， 库 夫 勒 和 他 的 博士 后 研究 员 转 到 哈佛 医学 院 ， 
创立 了 世界 上 第 一 个 神经 生物 学 系 。 
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休 伯 尔 和 威 泽 尔 发 现 ， 皮 层 神 经 元 对 定向 条 形 光 斑 和 高 对 比 度 边 缘 


的 反应 比 点 状 光斑 更 强烈 。 皮 层 内 的 回路 已 经 对 输入 信号 进行 了 转换 。 
他 们 描述 了 两 种 主要 类型 的 细胞 : 定 回 的 简单 细胞 ， 具 有 像 神经 节 细 胞 
那样 的 给 光 和 撤 光 区 域 〈 见 图 5-4) ; 以 及 定向 复杂 细胞 ， 其 神经 元 感 
受 野 里 的 任何 位 置 对 定 癌 刺激 都 会 产生 同样 的 啊 应 〈 见 图 5-5) 。 


图 5-4 猫 的 初级 视觉 皮层 中 简单 细胞 的 感受 野 。 这 张 图 片 来 自 休 伯 尔 和 威 泽 尔 在 
1962 年 发 表 的 论文 中 关于 发 现 简单 细胞 的 描述 。 十 字 花 代表 视野 中 光斑 会 产生 给 光 
响应 的 位 置 ， 而 三 角形 代表 撤 走 光斑 会 产生 撤 光 响应 的 位 置 。 CA) 视网膜 中 的 中 心 
给 光 响 应 细胞 《对 比 图 5-3 左 侧 的 示意 图 ) 。(B) 视 网 膜 细 胞 中 的 中 心 撤 光 响应 细胞 
(对 比 图 5-3 右 侧 的 示意 图 ) 。 (CG) 初级 视觉 皮层 中 多 样 的 简单 细胞 感受 域 ， 与 
视网膜 中 的 感受 野 相 比 ， 所 有 这 些 区 域 都 被 拉 长 了 ， 并 且 给 光 区 和 撤 光 区 的 分 布 更 
加 复杂 。 图 片 来 源 : D. H. Hubel and T. N. Wiesel, “Receptive Fields, 
Binocular Interaction and Functional Architecture in the Cat’ s Visual 
Cortex, ” Journal of Physiology160, no. 1 (1962): 106-154. 2， 图 2。 


图 5-5 猫 的 初级 视觉 皮层 中 一 个 复杂 细胞 的 响应 。 这 张 图 片 来 自 休 伯 尔 和 威 泽 尔 在 
1962 年 发 表 的 论文 中 关于 发 现 复 杂 细 胞 的 描述 。 只 要 方向 正确 (图 中 A、B、0 这 三 条 
记录 ) ， 一 个 长 而 罕 的 黑 条 会 引起 大 量 放电 (AER) 响应 ， 无 论 它 位 于 复杂 细 
胞 感受 野 (虚线 ) 内 的 哪个 位 置 。 而 非 最 优 方向 会 导致 较 弱 的 响应 ， 或 根本 没有 唤 
应 (图 中 D、E 这 两 个 记录 ) 。 图 片 来 源 : D. H. Hubel and T. N. Wiesel, 
“Receptive Fields, Binocular Interaction and Functional Architecture in 
the Cat’ s Visual Cortex, " Journal of Physiology160, no. 1 (1962) :106- 
154.2, 图 7。 


视觉 皮层 中 的 每 个 皮层 神经 元 部 可 以 被 认为 是 一 个 视觉 特征 检测 

。 在 从 导 中 的 特定 区 域 ， 当 茶 些 神经 元 所 侦 好 的 特征 信号 输入 高 于 某 
个 立信 时 这 些 神经 元 束 会 被 激活 。 每 个 神经 元 俩 好 的 特征 取决 于 它 与 
其 他 神经 元 的 连接 。 哺 乳 动 物 的 新 皮层 〈neocortex) 有 6 个 特 寞 化 的 层 
级 。 体 们 尔 和 威 泽 尔 还 发 现 ， 来 目 两 眼 的 输入 在 皮层 中 间 层 〈4) 左右 


交替 排列 ， 这 些 输入 源 自 丘脑 投射 的 中 继 站 。 第 4 层 的 单 目 神 经 元 投射 
到 上 层 (2 和 3) 的 神经 元 ， 它 们 接收 双 目 输入 ， 后 者 既 向 上 投射 到 其 他 
皮层 区 域 ， 又 向 下 投射 到 底层 (5 和 6) ， 底 层 又 会 投射 到 下 皮层 。 一 段 
视神经 元 柱 中 每 个 细胞 的 方向 偏好 和 主 眼 偏好 是 相同 的 ， 并 且 在 整个 皮 
层 内 平滑 地 变化 〈 见 图 5-6) 。 


图 5-6 初级 视觉 皮层 中 一 段 神 经 元 柱 的 立方 模型 。 在 垂直 方向 上 ， 所 有 和 神经 元 都 具 
有 相同 的 方向 偏好 和 主 眼 优势 。 在 每 平方 毫米 的 皮层 下 ， 有 一 整套 穿 过 皮层 表面 组 
慢 变 化 的 朝向 (立方 体 的 前 面 ) ， 以 及 来 自 双 眼 〈 立 方 体 的 右 侧 ) HHA. BAA 
源 : D. Hubel, Eye, Brain and Vision(New York: WH Freeman and Company, 
1988), 131. 


突 触 的 可 塑性 


如 果 一 只 猫 的 一 只 眼睛 在 其 生命 的 最 初 几 个 月 内 被 缝合 ， 那 么 通常 
由 双眼 驱动 的 皮层 神经 元 将 变 成 单眼 驱动 ， 只 由 睁 开 的 那 只 眼睛 文 配 。 
三 单眼 剥夺 改变 了 初级 皮层 中 突 触 的 强度 ， 初 级 皮层 是 神经 元 首次 接收 
来 自 两 只 眼睛 的 会 聚 输入 的 地 方 。 在 初级 视觉 皮层 的 皮层 可 塑性 关键 期 
结束 后 ， 闭 合 的 眼睛 将 再 也 不 能 影响 皮层 神经 元 ， 这 样 就 会 导致 一 
种 “弱视 ”症状 。 尽 管 在 灾 儿 中 常见 的 未 矫正 、 未 对 准 或 “斜视 ”状况 会 大 
大 减少 双眼 皮质 神经 元 的 数目 ， 并 且 阻 止 了 双眼 深度 知觉 ， 三 但 如 果 在 
关键 期 内 及 时 进行 矫正 眼睛 的 手术 ， 仍 然 可 以 挽救 双眼 神经 元 。 


单眼 剥 守 是 太 育 早期 阶段 存在 的 有 关 高 度 可 塑性 的 一 个 例子 ， 因 为 
环境 会 影响 皮层 和 大 脑 其 他 部 位 的 神经 元 之 间 的 突 触 连接 。 这 些 依赖 于 


活动 的 变化 凌驾 于 所 有 细胞 持续 不 断 的 更 新 之 上 。 尽 管 我 们 大 脑 中 的 大 
部 分 神经 元 与 我 们 出 生 时 的 神经 元 并 无 二 致 ， 三 但 几乎 每 个 神经 元 的 组 
成 部 分 和 连接 它们 的 突 触 ， 每 天 都 会 发 生 转 变 。 磨 损 的 蛋白 质 会 被 葵 
换 ， 膜 中 的 脂 质 也 会 被 更 新 。 有 了 这 么 多 的 动态 转变 ， 就 很 难 解释 记忆 
是 如 何在 我 们 的 有 生 之 年 得 以 维持 的 了 。 

还 有 另外 一 种 关于 记忆 持久 性 的 可 能 解释 ， 它 们 也 许 就 像 我 们 身体 
上 的 伤疤 ， 己 经 成 为 我 们 生活 中 过 往事 件 的 标记 。 这 些 标记 并 非 位 于 不 
断 发 生 转变 的 神经 元 内 部 ， 而 是 位 于 外 部 神经 元 之 间 的 空隙 中 ， 那 里 的 
细胞 外 基质 由 类 似 疤痕 组 织 中 胶原 蛋白 的 蛋白 聚 糖 构成 ， 这 种 基质 是 一 
种 可 以 维持 多 年 的 坚韧 的 材料 。 三 如 果 这 个 猜想 被 证 明 是 真实 的 ， 那 就 
意味 着 我 们 的 长 期 记忆 被 庶 入 了 大 脑 的 < 外 骨骼 中， 而 我 们 一 直 都 找 错 
MT. 

突 触 含有 数 百 种 独特 的 蛋白 质 ， 可 以 控制 神经 递 质 的 释放 和 受 体 神 
经 元 上 相应 受 体 的 激活 。 在 大 多 数 情况 下 ， 突 触 强度 可 以 选择 性 地 在 很 
大 范围 内 增加 或 减少 ， 在 皮层 中 ， 这 个 变化 范围 是 100 倍 。 (在 大 脑 中 
发 现 的 突 触 学 习 算法 的 实例 将 在 后 面 的 章节 中 讨论 。) 更 为 显著 的 是 ， 
皮层 中 会 不 断 形成 新 的 突 触 ， 并 移 除 旧 的 突 触 ， 这 就 让 它们 成 为 身体 中 
最 具 活 力 的 细胞 器 。 大 脑 中 有 大 约 100 种 不 同类 型 的 突 触 ， 其 中 谷 氨 酸 
是 皮层 中 最 常见 的 兴奋 性 神经 递 质 ， 而 另 一 种 氨基 酸 一 _y_ 氨 基 丁 酸 
(GABA) 是 最 常见 的 抑制 性 神经 递 质 。 这 些 神经 递 质 分 子 对 其 他 神经 
元 的 电化 学 影响 伴随 着 很 宽泛 的 时 间 过 程 。 例 如 ， 第 4 章 中 讨论 的 牛蛙 
交感 神经 节 细胞 的 突 触 ， 其 响应 时 间 尺 度 可 以 从 毫秒 到 分 钟 。 


通过 阴影 脑 补 立 体 全 貌 


史 带 文 : 祖 克 (Steven Zucker) 〈 见 图 5-7) 专注 于 融合 了 计算 机 视 
党 和 生物 视觉 的 交叉 领域 的 研究 。 从 我 认识 他 起 ， 他 束 在 写 一 本 解释 视 
党 工作 原理 的 书 ， 到 现在 已 经 有 30 多 年 了 。 问 题 在 于 史 带 文 在 视觉 研究 


LAB ARTA AE, DURST ei ree (Laurence Sterne) 在 小 说 《项 
狄 传 》 中 描写 的 主人 公 项 狄 〈Tristram Shandy) 那样 ， 史 蒂 文 那 本 书 也 
随 着 主人 公 的 新 发 现 而 越 变 越 长 。 三 他 研究 视觉 的 方法 是 基于 初级 视觉 
皮层 的 精巧 、 规 则 的 结构 〈 见 图 5-6) ， 这 是 一 种 不 同 于 皮层 中 任何 其 
他 部 位 的 结构 ， 其 中 的 神经 元 以 近似 马赛 元 式 的 排列 方式 组 织 起 来 ， 这 
种 排列 的 几何 解释 还 有 竺 探究。 计算 机 视觉 领域 的 大 多 数 研究 人 员 希 望 
通过 将 对 象 从 背景 中 分 割 出 来 ， 并 找到 一 些 可 辨识 的 特征 来 识别 对 象 。 

史 带 文 还 有 更 大 的 野心 ， 想 要 了 解 我 们 如 何 从 表面 阴影 以 及 折 痕 和 
初 皱 中 提炼 出 物体 的 形状 。 在 2006 年 神经 科学 学 会 的 年 会 上 ， 那 个 把 房 
子 建 得 像 船 帆 一 样 的 建筑 师 弗 兰 元 : 兹 里 (Frank Gehry) ， 在 接受 采访 
时 ， 被 问 及 他 的 建筑 设计 有 灵感 从 何 而 来 。 三 他 回答 说 ， 灵 感 来 自 对 被 揉 
敏 的 纸张 的 观察 。 但 是 ， 我 们 的 视觉 系统 又 是 如 何 通 过 裙 外 和 阴影 表面 
的 复杂 图 案 ， 把 皱 巴巴 的 纸张 的 复杂 形状 拼合 起 来 的 呢 ? 我 们 是 如 何 感 
知 西班牙 毕 尔 巴 鄂 市 (Bilbao) 古 根 海 姆 博物 馆 (Guggenheim 
Museum， 见 图 5-8) 外 墙 那 多 变 的 形状 的 呢 ? 


图 5-7 耶 生 大 学 史 蒂 文 。 祖 克 ， 光 从 照片 右上 角 打 下 来 。 从 他 毛衣 上 的 阴影 变化 
中 ， 你 可 以 察觉 到 衣服 褐 皱 的 形状 。 他 身后 黑板 上 的 方程 式 解释 了 为 什么 我 们 能 识 
别 这 种 现象 ， 这 一 灵感 来 自 猴 子 的 视觉 皮层 。 图 片 来 源 : LHL HR. | 
re 
i i Jf" 


~ —_ 


| 


图 5-8 西班牙 毕 尔 巴 娜 市 的 十 根 海 姆 博物 馆 ， 由 弗兰克 。 盖 里 设计 。 来 自 曲 面 的 阴 
影 和 反射 形成 了 强烈 的 结构 感 和 动感 。 可 以 参照 通道 上 的 人 影 大 小 来 体会 这 幢 宏 伟 
建筑 的 规模 。 

史 带 文 : 祖 克 最 近 已 经 能 够 搞 清 楚 我 们 是 如 何在 有 阴影 的 图 像 中 看 
到 裙 争 的 ， 其 背后 的 解释 是 基于 类 似 山体 等 蜗 线 图 的 表面 三 维 轮 万， 以 
及 图 像 上 等 照度 轮廓 之 间 的 密切 关系 〈 见 图 5-9) 。 三 这 种 关联 源 于 表 
面 的 几何 形状 。 三 这 解释 了 为 什么 我 们 对 形状 的 感知 几乎 不 受 照明 以 及 
物体 表面 性 质 差 异 的 影响 。 这 也 可 以 解释 为 什么 我 们 非常 善于 阅读 轮廓 
明显 的 等 高 线 地 图 ， 以 及 为 什么 只 需要 儿 条 特殊 的 内 线 就 可 以 看 出 漫画 
中 物体 的 形状 。 


图 5-9 同一 平面 的 等 高 线 图 (AL) 和 等 照度 线 〈 恒 定 亮度 轮廓 线 ， 左 下 ) 。 两 者 
在 轮廓 右 侧 显示 的 临界 点 之 间 产 生 了 相同 的 分 区 。 图 片 来 源 : Kunsberg and 
Zucker, “Critical Contours: An Invariant Linking Image Flow with Salient 
Surface Organization, ”图 5。 


1988 年 ， 西 德 尼 . 莱 基 (Sidney Lehky) 和 我 有 了 一 个 想法 ， 我 们 也 


许可 以 训练 一 个 只 有 一 层 隐 藏 单元 的 神经 网 络 来 计算 阴影 曲面 的 曲率 。 
三 我 们 成 功 了 ， 而 且 出 人 意料 的 是 ， 隐 藏 单元 的 表现 跟 简 单 细 胞 非常 相 
似 。 但 仔细 观察 后 ， 我 们 发 现 并 非 所 有 这 些 “ 简 单 细 胞 ”都 是 相同 的 。 通 
过 查看 它们 对 输出 层 的 投影 一 一 该 输出 层 被 训练 通过 使 用 学 习 算 法 《〈 见 
第 8 章 ) 来 计算 曲率 一 一 我 们 发 现 一 些 隐藏 单元 被 用 于 分 辨 正 曲率 〈 凸 


起 ) ANH HHS CMBR) ( 见 图 5-10，〉。 和 一 些 简单 细胞 一 样 ， 这 些 单元 
是 检测 器 ， 它 们 往往 要 么 是 低 啊 应 ， 要 么 是 高 啊 应 ， 其 啊 应 活动 呈 双 峰 
分 布 。 相 比 之 下 ， 隐 藏 层 中 的 其 他 单元 具有 分 级 啊 应 的 功能 ， 可 以 像 滤 
流露 一 样 向 输出 单元 发 送 关 于 曲率 方向 和 大 小 的 信息 。 


图 5-10 阴影 中 的 曲率 。 我 们 的 视觉 系统 可 以 从 边界 轮 廊 内 亮度 的 缓慢 变化 中 提取 对 
象 的 形状 。 你 可 以 根据 阴影 方向 以 及 你 对 照明 方向 的 假设 〈 通 常 假 设 为 正 上 方 ) 来 
分 辩 图 中 的 突出 或 凹陷 。 上 下 颠倒 这 幅 图 ， 看 看 它们 是 否 反 过 来 了 。 图 片 来 源 : V. 

S. Ramachandran, “Perception of Shape from Shading, ” Nature331, no. 

6152 (1988), #2. 


这 一 结论 令 人 惊讶 ; 神经 元 的 功能 不 仅仅 取决 于 它 如 何 对 输入 做 出 
有 反应， 而 且 还 取决 于 它 通过 自身 的 “投射 域 ”激活 的 下 游 神经 元 。 一 个 神 
经 元 的 输出 一 直 以 来 都 比 它 的 输入 更 难 确定 ， 但 新 的 遗传 学 和 解剖 学 技 
术 使 得 精确 妃 踪 下 游 的 轴 突 投射 成 为 可 能 。 新 的 光 遗 传 学 技术 也 使 得 选 


择 性 刺激 特定 神经 元 ， 以 探测 其 对 感知 和 行为 的 影响 成 为 可 能 。 三 即便 
如 此 ， 我 们 的 小 规模 神经 网 络 只 能 识别 突起 或 凹陷 的 曲率 ， 而 我 们 仍然 
不 知道 在 心理 学 文献 中 被 称 为 “格式 塔 ? (Gestalts ) 三 的 整体 组 织 认 知 
是 如 何在 皮层 中 分 布 的 。 


1984 年 ， 史 带 文 : 祖 元 和 我 曾 被 困 在 丹佛 斯 台 普 顿 (Stapleton〉 国 际 
机 场 ， 我 们 的 航班 因 骏 风 雪 而 延误 了 。 那 会 儿 我 们 对 当时 正 处 于 起 步 阶 
段 的 计算 神经 科学 感到 兴奋 不 已 ， 于 是 盘算 着 创建 一 个 研讨 会 ， 将 计算 
和 实验 研究 人 员 聚 集 在 一 起 。 我 们 决定 把 地 点 定 在 伍兹 霍 尔 ， 我 曾经 在 
那里 参加 过 一 个 神经 生物 学 的 夏季 课程 ， 并 且 在 之 后 好 几 个 暑期 中 又 回 
去 ， 与 斯 带 分 . 库 夫 勒 一 起 在 海洋 生物 实验 室 做 过 生理 实验 。 伍 兹 霍 尔 
是 鲤鱼 角 附 近 的 一 个 美丽 的 村 子 ， 离 波士顿 不 远 。 多 年 来 ， 许 多 视觉 研 
完 领 域 的 领军 人 物 都 参加 了 这 个 年 度 研 讨 会 ， 这 对 我 来 说 是 另 一 个 科学 
上 高 点 。 视 党 皮层 计算 理论 束 诞 生 于 这 些 研 讨 会 ， 尽 管 对 该 理论 的 确认 
还 需要 30 年 。《〈 在 第 9 和 章 中 ， 我 们 将 看 到 最 成 功 的 深度 学 习 网 络 的 结构 
与 视觉 皮层 的 结构 非常 相似 。) 


at 


视觉 区 域 的 层级 结构 


乔 恩 : 卡 斯 (Jon Kaas) 和 约翰 : 奥 尔 曼 (John Allman) 于 20 世 纪 70 
年 代 早 期 ， 在 威斯康星 大 学 神经 生理 学 系 研 究 从 初级 视觉 皮层 接受 输入 
的 皮层 区 域 ， 发 现 了 不 同 区 域 具 有 不 同 的 特性 。 例 如 ， 在 一 个 他 们 称 
H FERH” (middle temporal cortex) 或 “MT” 的 区 域 ， 他 们 发 现 
了 一 些 视觉 区 域 ， 它 们 的 神经 元 对 定 问 移动 的 视觉 刺激 能 够 做 出 反应 。 
奥 尔 曼 癌 我 提 到 ， 他 们 当时 很 难 让 系 主任 克林顿 : 伍 尔 西 CClinton 
Woolsey) 接受 这 个 发 现 。 卡 斯 和 奥 尔 曼 用 较 先进 的 记录 技术 发 现 了 这 
些 纹 外 视觉 皮层 Cextrastriate visual cortex) 的 区 域 ， 而 在 较 早 的 实验 
中 ， 伍 尔 西 由 于 使 用 的 记录 技术 相对 粗糙 ， 与 这 一 发 现 控 肩 而 过 。 三 最 
近 的 研究 在 猴子 的 视觉 皮层 中 找到 了 二 十 几 个 视觉 区 域 。 


1991 年 ， 还 在 加 州 理工 学 院 的 大 卫 : 范 : 艾 森 (David Van Essen) ff 
细 研 究 了 皮层 每 个 视觉 区 域 的 输入 和 输出 ， 并 将 它们 按 层级 排列 了 出 来 
〈 见 图 5-11) 。 这 张 图 有 时 仅仅 被 用 于 说 明 皮 层 的 复杂 性 。 它 就 像 一 座 
大 城市 的 地 铁 图 ， 其 中 方 框 代 表 地 铁 站 ， 各 种 颜色 的 线 代 表 地 铁 线路 。 
视网膜 神经 节 细 胞 CRGCO 的 视觉 输入 投射 到 图 表 底 部 的 初级 视觉 皮层 
(V1) 。 从 那里 开始 ， 信 和 号 被 癌 上 传送 到 层级 结构 中 ， 每 个 区 域 专门 
负责 视觉 的 不 同方 面 ， 例 如 形态 感知 。 靠 近 图 右 侧 的 层级 示意 图 顶部 ， 
下 晒 叶 皮层 的 前 部 、 中 部 和 后 部 CAIT, CITAI PIT) 区 域 中 的 神经 元 的 
感受 野 履 盖 了 整个 视觉 区 域 ， 并 对 复杂 的 视觉 刺激 如 脸 部 和 其 他 对 象 做 
出 优先 反应 。 虽 然 我 们 不 知道 神经 元 是 如 何 做 到 这 一 点 的 ， 但 我 们 确实 
知道 连接 的 强度 可 以 通过 经 验 来 改变 ， 如 此 一 来 ， 神 经 元 束 可 以 学 习 如 
何 对 新 对 象 做 出 反应 。 范 : 艾 森 后 来 去 了 圣路易斯 的 华盛顿 大 学 ， 在 那 
里 他 被 任命 为 NIH 资 助 的 人 脑 连 接 组 项 目 CHCP) 的 联合 主任 。 三 他 的 
研究 小 组 的 工作 是 使 用 基于 人 磁 共 振 成 像 MRD 技术 ， 三 来 生成 人 体 大 
脑 皮 层 中 的 长 程 连接 图 ( 见 图 5-12) 。 
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图 5-11 猴 脑 中 视觉 区 域 的 层级 结构 图 。 视 觉 信息 从 视网膜 神经 节 细 胞 (RGC) 映射 
到 括 脑 的 外 侧 膝 状 核 CLON) ， 其 中 继 细胞 投射 到 初级 视觉 皮层 (V1) 。 皮 层 区 域 的 
层级 结构 终止 于 海马 体 (H0) 。 图 中 所 有 的 187 个 连接 几乎 都 是 双向 的 ， 有 源 自 较 低 
区 域 的 前 馈 连 接 和 源 自 较 高 区 域 的 反馈 连接 。 图 片 来 源 : D. J. Fellemanand D. C. 
Van Essen, “Distributed Hierarchical Processing in Primate Visual 
Cortex," Cerebral Cortex1, no. 1 (1991): 30， 图 4。 


图 5-12 人 脑 连接 组 。 基 于 水 分 子 不 均匀 扩散 的 磁 共 振 成 像 能 够 以 一 种 非 侵 入 性 的 方 
式 追 踪 脑 白 质 中 的 长 程 纤 维 束 。 不 同 的 颜色 标注 了 不 同 的 路 径 方向 。 图 片 来 源 : The 


Human Connectome Project. 


认 知 神经 科学 的 诞生 


1988 年 ， 我 曾 服务 于 麦克 唐 和 共和 皮 尤 基金 会 (McDonnell and Pew 
Foundations) 的 一 个 委员 会 ， 需 要 走访 知名 的 认 知 科学 家 和 神经 科学 


家 ， 就 如 何 启 动 一 个 名 为 * 认 知 神经 科学 ”的 新 领域 听取 建议 。 三 该 委员 
会 辊 转 于 世界 各 个 国家 ， 与 专家 会 面 ， 听 取 他 们 关于 哪些 科学 专题 最 有 
前 途 ， 以 及 在 哪里 建设 新 的 认 知 神经 科学 研究 中 心 的 建议 。8 月 的 一 个 
烈日 炎炎 的 下 午 ， 我 们 在 哈佛 大 学 教员 俱乐部 征询 了 杰 瑞 : 福 多 (Jerry 
Foder) 的 意见 ， 他 是 思想 语言 方面 的 专家 ， 也 是 模块 化 思想 的 倡导 
者 。 他 开门 见 山 ， 直 接 驶 斥 了 我 们 的 战略 ,“ 认 知 神经 科学 不 是 一 门 科 
学 ， 而 且 永 远 不 会 是 *"。 他 给 人 的 印象 是 ， 他 已 经 阅读 了 关于 视觉 和 记 
忆 的 所 有 神经 科学 论文 ， 但 这 些 文章 都 没有 达到 他 的 标准 。 但 是 当 他 评 
论说 “ 雪 当 劳 基金 会 正在 浪费 它 的 资金 "时 ， 麦 元 唐 妹 基金 会 主席 约 软 : 
ME John Bruer) 立刻 就 指出 ， 福 多 把 他 的 基金 会 和 街头 制作 汉 作 
包 的 地 儿 搞 混 了 。 

福 多 丝 室 不 为 所 动 。 他 解释 了 为 什么 头脑 应 该 被 当 作 运行 智能 计算 
机 程序 的 模块 化 符号 处 理 系统 。 加 州 大 学 圣迭戈 分 校 的 哲学 家 帕 特 里 夏 
EA (Patricia Churchland)〉 问 他 的 理论 是 否 也 适用 于 猫 。“ 是 
HJ, "dH US. “ 猫 正 在 运行 猪 程 序 。” 但 是 当 NIH 研 究 视觉 和 记忆 的 神经 
科学 家 莫 蒂 默 . 米 什 金 (Morümer Minshkin) 让 他 介绍 他 自己 的 实验 室 
的 发 现时 ， 福 多 嘟 喷 着 说 了 一 些 我 听 不 太 懂 的 话 ， 好 像 是 关于 在 语言 实 
验 中 的 事件 相关 电位 。 季 运 的 是 ， 那 一 刻 ， 消 防 演习 的 警 铃 啊 了 ， 我 们 
都 被 要 求 去 室外 等 待 。 站 在 院子 里 ， 我 听 到 米 什 金 对 福 多 说 :“ 那 些 都 
是 雕 虫 小 技 坟 了 。” 演 习 结 束 后 ， 福 多 就 再 没 出 现 。 

认 知 神经 科学 已 经 发 展 成 为 一 个 重要 的 领域 ， 吸 引 了 各 个 科学 领域 
的 很 多 研究 人 员 ， 包 括 社 会 心理 学 和 经 济 学 ， 这 些 领 域 以 前 与 神经 科学 
很 少 有 或 没有 任何 直接 联系 。 使 这 一 切 成 为 可 能 的 是 在 20 世 纪 90 年 代 早 
期 采用 的 非 侵 入 式 大 脑 活动 可 视 化 方法 ， 尤 其 是 功能 磁 共 振 成 像 
(fMRI)〉， 其 目前 的 空间 分 辩 率 为 几 坚 米 。fMRI 生 成 的 庞大 的 成 像 数 
据 集 被 交 由 新 的 计算 方法 进行 分 析 ， 如 独立 分 量 分 析 将 在 第 6 章 讨 
We) 
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控制 ，fMRI 所 测量 的 血 氧 水 平 依赖 (BOLD) 信和 号 就 被 当 作 大 脑 活动 的 
蔡 代 指标 。 血 液 中 的 含 氧 量 改变 了 它 的 磁性 ， 可 以 用 fMRI 进行 无 创 监 
测 ， 并 且 以 几 秒 的 时 间 分 辩 紊 产生 大 脑 活动 的 动态 图 像 。 这 种 时 间 分 辨 
率 足 够 退 踩 在 实验 过 程 中 大 脑 的 哪些 部 分 在 活动 。fMRI 已 经 被 用 于 控 
过 视觉 层级 结构 不 同 部 分 的 时 值 整 合 。 

普林斯顿 大 学 的 尤 里 : 哈 森 (Uri Hasson) 进行 了 一 项 fMRI 实 验 ， 虽 
在 探究 视觉 层级 的 哪些 部 分 涉及 处 理 不 同 长 度 的 电影 。 三 查理 . 卓 别 林 
(Charlie Chaplin) 的 无 声 电 影 被 剪辑 为 4 秒 、12 秒 和 36 秒 的 片段 呈现 给 
受 试 者 。 在 4 秒 的 剪辑 中 ， 受 试 者 可 以 识别 一 个 场景 ，12 秒 时 ， 可 以 看 
清 连 接 的 动作 ; 在 36 秒 的 长 度 下 ， 能 够 看 到 一 个 有 开头 和 结尾 的 故事 。 
在 层级 底部 的 初级 视觉 皮层 中 的 fMRI 反 应 ， 无 论 在 什么 样 的 时 间 尺 度 
上 ， 都 强大 且 可 靠 。 但 在 视觉 等 级 的 较 高 层次 上 ， 只 有 较 长 的 时 间 尺 度 
才能 引起 可 靠 的 反应 ， 而 位 于 层级 顶层 的 前 额 叶 皮 层 区 需要 最 长 的 时 间 
间隔 。 这 与 其 他 实验 结果 一 致 ， 即 工作 记忆 也 按照 层级 分 布 。 工 作 记 忆 
是 我 们 掌握 信息 的 能 力 ， 比 如 要 记 住 的 电话 号 码 ， 以 及 我 们 正在 处 理 的 
任务 的 要 素 。 最 长 的 工作 记忆 时 间 尺 度 同 样 位 于 前 额 叶 皮层 。 


作为 神经 科学 中 最 让 人 兴奋 的 学 术 领 域 之 一 ， 对 大 脑 学 习 行 为 的 研 
完 可 以 在 不 同 的 层面 进行 ， 从 分 子 层 面 到 行为 层面 。 


1. 由 克 里 克 、 拉 马 钱 德 兰 (V. S. Ramachandran) MÆ- (Gordon Shaw) 在 20 世 纪 
80 年 代 建 立 的 亥 姆 霍 效 俱乐部 持续 活跃 了 20 多 年 。 关 于 它 的 历史 ， 可 以 参阅 C.， Aicardi, 
“Of the Helmholtz Club, South-Californian Seedbed for Visual and Cognitive Neuroscience, and 
Its Patron Francis Crick,” Studies inHistory and Philosophy of Biological and Biomedical 
Sciences45, no. 100 (2014):1-11. 


2. 用 一 位 满意 的 与 会 者 的 话 来 说 : “我 从 遇 到 的 每 个 人 号 上 都 学 到 了 很 多 。 我 对 采纳 别 
人 的 想法 一 点 也 不 觉得 难为 情 。.……. 对 我 来 说 ， 最 有 收获 的 学 习 经 历 就 是 这 个 亥 姆 霍 效 
俱乐部 。 我 不 知道 你 是 否 听 说 过 这 个 团体 。.…… 他 们 大 概 有 20 个 人 。 我 从 来 没有 错过 一 
次 他 们 的 例会 。 我 还 得 找 人 著 我 上 课 ， 这 个 会 比 我 的 课 还 重要 ， 我 绝对 不 能 错过 。” 
Carver Mead, in James A. Anderson and Edward Rosenfeld, eds., Talking Nets: An Oral History 
of Neural Networks(Cambridge, MA: MIT Press, 2000), 138. 


10. 


11. 


12. 


13. 


14. 


R. Desimone, T. D. Albright, C. G. Gross, and C. Bruce, “Stimulus-Selective Properties of 
Inferior Temporal Neurons in the Macaque,” Journal of Neuroscience4, no. 8 (1984): 2051- 
2062. 查尔斯 - 格 罗斯 实验 室 的 许多 研究 人 员 都 留 了 胡子 ， 因 此 ， 对 马桶 刷 做 出 反应 的 视觉 
皮层 中 的 神经 元 可 能 是 胡须 细胞 。 

David Hubel, Eye, Brain, and Vision(New York: W. H. Freeman, 1988), 191—216. 


独 的 关键 时 期 从 3 周到 几 个 月 不 等 ， 而 人 类 是 从 几 个 月 到 七 八 岁 不 等 。 关 键 期 的 结束 
可 能 不 会 像 以 前 认为 的 那样 突然 ， 在 经 过 高 强度 的 练习 后 ， 接 受过 斜视 矫正 的 成 人 仍然 
可 以 获得 立体 视觉 的 能 力 。 参 阅 Susan R. Barry, Fixing My Gaze: A Scientist’s Journey into 
Seeing in Three Dimensions(New York: Basic Books, 2009)。 当 我 还 是 普林斯顿 大 学 的 研究 
生 时 ， 就 认识 了 Barry， 她 现在 被 叫 作 “立体 苏 ”(Stereo Sue) 。 
这 条 规则 也 存在 一 些 例外 的 情况 : 海马 体 中 齿 状 回 的 颗粒 细胞 和 串 球 中 的 神经 元 在 
我 们 的 一 生 当 中 都 会 不 断 更 新 。 人 参阅 Michael Specter, “Rethinking the Brain: How the Songs 
of Canaries Upset a Fundamental Principle of Science,” NewYorker, July 23, 2001, http://www. 


michaelspecter.com/2001/07/rethinking-thebrain/. 


Terrence Sejnowski, “How Do We Remember the Past?" in John Brockman, ed.,What We 
Believe but Cannot Prove: Today's Leading Thinkers on Science in the Age of 
Certainty(London: Free Press, 2005), 97—99; and R. Y. Tsien, “Very Long Term Memories May 
Be Stored in the Pattern of Holes in the Perineuronal Net," Proceedings of the National Academy 
of Sciences of the United States of America110, no. 30 (2013): 12456-12461. 

在 阿尔 兹 海 默 症 中 ， 细 胞 外 基质 的 完整 性 受到 损害 ， 这 可 能 导致 了 长 期 记忆 的 表 


"k. John Allman, private communication, July, 2017. 
小 说 中 的 主人 公 也 是 故事 的 叙述 者 ， 按 照 “ 头 脑 中 思想 的 延续 ?来 描述 若干 杂乱 的 事 
件 ， 依 据 主 人 公 脑 海中 事件 出 现 的 顺序 来 叙事 ， 而 非 按 照 传 统 的 时 间 顺 序 。 译 者 注 
关于 盖 里 演讲 的 概述 ， 可 以 参阅 Shelley Batts, SEN Special Lecture:Architecture Frank 
Gehry and Neuro-Architecture,” Science Blogs, posted October 15, 2006, 


f 


http://scienceblogs.com/retrospectacle/2006/10/15/sfn-special-lecturearchitect-1/. 


B. S. Kunsberg and S.W. Zucker, “Critical Contours: An Invariant Linking Image Flow 
with Salient Surface Organization," May 20, 2017, https://arxiv.org/pdf/1705.07329.pdf. 


在 山脉 的 等 高 线 图 上 看 到 的 表面 的 三 维 轮廓 ， 和 图 像 上 的 等 照 轮廓 之 间 的 联系 ， 可 
以 用 表面 上 的 临界 点 和 梯度 流 的 几何 形状 来 解释 ， 后 者 被 叫 作 “Morse Smale 复 形 ”。 


S. R. Lehky and T. J. Sejnowski, “Network Model of Shape-from-Shading: Neural Function 
Arises from Both Receptive and Projective Fields,” Nature333, no. 6172(1988): 452-454. 


Terrence J. Sejnowski, *What Are the Projective Fields of Cortical Neurons?"in J. Leo van 
Hemmen and Terrence J. Sejnowski, eds. 23 Problems in SystemsNeuroscience(New York: 
Oxford University Press, 2005), 394—405. 


15. 


16. 


17. 


18. 


19. 


20. 


格式 塔 学 派 主张 人 脑 的 工作 原理 是 基于 整体 的 ， 其 效果 不 同 于 其 各 个 部 件 功能 的 总 
和 。 译 者 注 
C. N. Woolsey, “Cortical Localization as Defined by Evoked Potential and Electrical 


Stimulation Methods,” in G. Schaltenbrand and C. N. Woolsey (eds.),Cerebral Localization and 
Organization(Madison: University of Wisconsin Press,1964), 17-26; J. M. Allman and J. H. 
Kaas, “A Representation of the Visual Field in the Caudal Third of the Middle Temporal Gyms 
of the Owl Monkey (Aotustrivirgatus),” Brain Research31 (1971): 85-105. 


L. Geddes, “Human Brain Mapped in Unprecedented Detail: Nearly 100 Previously 
Unidentified Brain Areas Revealed by Examination of the Cerebral Cortex,” Nature, July 20, 
2016. doi:10.1038/nature.2016.20285. 


其 中 一 种 技术 弥散 张 量 成 像 (diffusion tensor imaging, DTI) ， 能 够 追踪 构成 大 
脑 皮 层 中 白质 的 轴 突 的 方 同 。 

Elizabeth Penisi, “Two Foundations Collaborate on Cognitive Neuroscience,”Scientist, 
October 1989, http://www.the-scientist.com/?articles.view/articleNo/107 19/title/Two- 


Foundations-Collaborate-On-Cognitive-Neuroscience/. 


U. Hasson, E. Yang, I. Vallines, D. J. Heeger, and N. Rubin, “A Hierarchy of Temporal 
Receptive Windows in Human Cortex,” Journal of Neuroscience28, no.10 (2008): 2539-2550. 
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要 事 年 表 


1949 年 


唐纳德 。 赫 布 (Donald Hebb) 出 版 了 《行为 的 组 织 》 (The 
Organization of Behavior) 一 书 ， 提 出 了 有 关 突 触 可 塑性 的 赫 布 定 
律 (Hebb Rules) 。 


1982 年 
2535 e E ËE Ri (John Hopfield) 发 表 了 文章 《具有 突 发 性 集 
体 计 算 能 力 的 神经 网 络 和 物理 系统 》 (Neural Networks and 


Physical Systems with Emergent Collective Computational 
Abilities) ， 其 中 介绍 了 霍 普 菲 尔 德 网络 (Hopfield net) 。 


1985 年 


杰 旨 里 。 辛 顿 和 我 发 表 了 文章 《 玻 尔 次 曼 机 的 一 种 学 习 算 法 》 (A 
Learning Algorithm for Boltzmann Machines) ， 这 是 马 文 。 明 斯 
基 和 西 摩尔 。 帕 普 特 被 广泛 接受 的 观点 的 反例 ， 后 者 认为 为 多 层 网 络 
开发 学 习 算 法 是 不 可 能 的 。 


1986 年 
KE + 24444 (David Rumelhart) 和 杰 弗 里 。 辛 顿 发 表 了 文章 
《通过 误差 传播 学 习 内 在 表征 》 (Learning Internal 


Representations by Error-Propagation) ， 其 中 介绍 了 当前 用 于 深 
度 学 习 的 “ 反 传 ” (backprop) 学 习 算 法 。 


1988 年 


理 查 德 。 萨 顿 (Richard Sutton) 在 《机 器 学 习 》 杂 志 上 发 表 了 
文章 《通过 时 序 差 分 方法 学 习 预 测 》 (Learning to Predict by the 
Methods of Temporal Differences) 。 时 序 差 分 学 习 现 在 被 认为 是 
在 所 有 大 脑 中 进行 奖励 学 习 的 算法 。 


1995 年 


安东尼 。 贝 尔 (Anthony Bell) 和 我 发 表 了 文章 《一 种 用 于 讶 分 
离 和 盲 解 卷 积 的 信息 最 大 化 方法 》 (An  Information-Maximization 
Approach to Blind Separation and Blind Deconvolution) ， 描 述 
了 一 种 用 于 独立 分 量 分 析 Clndependent Component Analysis, 
1CA) 的 无 监督 算法 。 


2013 年 


杰 弗 里 。 辛 顿 在 2012 年 NIPS 会 议 上 发 表 的 论文 《深度 卷 积 神 经 网 
络 下 的 ImageNet 分 类 》 (lmageNet Classification with Deep 
Convolutional Neural Networks) ， 将 图 像 中 对 象 分 类 的 错误 率 降 
低 到 了 18%。 


2017 年 
深度 学 习 网 络 程序 AlphaGo， 击 败 了 围棋 世界 冠军 柯 洁 。 


在 一 个 拥挤 的 鸡尾酒 会 上 ， 当 空气 中 弥漫 着 其 他 人 谈 笑 的 嘲 杂 声 
时 ， 想 要 听见 你 面前 的 人 说 话 是 很 费劲 儿 的 。 你 的 两 只 耳 东 有 助 于 你 把 
听力 集中 在 正确 的 方向 ， 而 你 的 记忆 可 以 填补 没 听 清 的 谈话 内 容 。 现 在 
想象 一 下 ， 房 间 里 正在 举行 一 个 有 100 人 参加 的 鸡尾酒 派对 ， 四 周 还 有 
100 个 以 任意 方 同 排 布 的 麦 元 风 。 每 个 麦克 风 都 会 采集 所 有 人 的 声音 ， 
但 是 每 个 麦 元 风 针 对 每 个 人 采集 的 声音 振幅 比 不同 。 是 否 有 可 能 设计 出 
一 种 算法 ， 将 每 种 声音 分 离 成 单独 的 输出 声 道 ? 或 者 更 复杂 点 ， 如 果 声 
音 来 源 是 未 知 的 ， 比 如 混合 了 音乐 、 拍 手 声 、 自 然 声 首 ， 甚 殖 是 随机 的 
噪声 呢 ? 这 就 是 所 谓 的 “ 盲 源 分 离 问 题 ”( 见 图 6-1)〉。 

1986 年 4 月 13 一 16 日 ， 在 犹他 州 雪 乌 城 举办 的 神经 网 络 计 算 会 议 ， 
也 就 是 AIP 会 议 CNIPS 大 会 的 前 身 ) 上 ， 出 现 了 一 个 题 为 《利用 神经 网 
络 模型 进行 空间 或 时 间 自 适应 信号 处 理 》 (Space or Time Adaptive 
Signal Processing by Neural Network Models) 的 墙报 。 它 的 作者 詹 妮 : 埃 
罗 (Jeanny Herault) 和 元 里 斯 带 安 :于 滕 (Christian Jutten) 使 用 了 一 种 
学 习 算法 ， 对 输入 给 神经 网 络 模 型 的 混合 正弦 波 《〈 均 为 纯 频 率 ) 进行 了 
诗 分 离 ， 并 指出 了 一 类 新 的 无 监督 学 习 算 法 。 导 虽然 当时 还 不 知道 是 否 
存在 一 种 可 以 盲 分 离 其 他 类 型 信号 的 通用 解决 方案 ， 但 十 年 之 后 ， 安 东 
尼 : 贝 尔 和 我 发 现 了 一 种 可 以 解决 一 般 问 题 的 算法 。 三 


图 6-1 盲 源 分 离 。 凯 尔 和 斯 坦 在 有 两 个 麦克 风 的 房间 里 同时 说 话 。 每 个 麦克 风 会 从 
扬声器 以 及 房间 墙壁 反射 的 声音 里 采集 信号 。 该 实验 的 挑战 就 在 于 ， 如 何在 对 信号 
的 相关 信息 一 无 所 知 的 情况 下 将 两 个 声音 彼此 分 开 。 独 立 分 量 分 析 是 一 种 学 习 工 
法 ， 可 以 在 不 了 解 信 息 源 的 情况 下 解决 这 个 问题 。 


在 嘲 末 中 找到 你 的 声音 


感知 器 是 一 个 有 单一 神经 元 的 神经 网 络 。 复 杂 度 略 高 于 感知 器 的 次 
简单 网 络 体系 结构 在 输出 层 中 有 多 个 模型 神经 元 ， 每 个 输入 神经 元 都 会 
连接 到 一 个 输出 神经 元 ， 该 结构 将 输入 层 中 的 模式 转换 为 输出 层 中 的 模 
式 。 这 个 网 络 不 仅 可 以 对 输入 进行 分 类 ， 还 可 以 学 习 如 何 进行 盲 源 分 
离 。 

1986 年 ， 安 东 尼 .贝尔 〈 见 图 6-2) 还 是 一 名 在 苏黎世 联邦 理工 学 院 

(ETH Zurich) 进行 嗜 期 实习 的 本 科 生 。 他 很 早 就 对 神经 网 络 产生 了 兴 


趣 ， 曾 前 往日 内 瓦 大 学 聆听 来 自 神 经 网 络 领域 前 磋 们 的 4 个 演讲 。 在 布 
鲁 塞 尔 大 学 获得 博士 学 位 后 ， 他 于 1993 年 前 往 拉 荷 亚 ， 加 入 了 我 的 实验 
室 ， 担 任 博 士 后 研究 员 。 


图 6-2 正在 独立 思考 的 安东尼 。 贝 尔 ， 当 时 他 正在 从 事 独 立 分 量 分 析 研 究 〈 照 片 拍 
摄 于 1995 年 前 后 ) 。 某 个 领域 的 专家 试图 解决 一 个 问题 时 ， 常 常 无 法 实现 突破 ， 有 
时 反倒 是 第 一 次 接触 这 个 问题 的 人 能 找到 新 方法 并 解决 问题 。 安 东 尼 和 我 发 现 了 一 
种 和 迭代 算法 来 解决 言 源 分 离 问 题 ， 这 个 算法 现在 已 经 是 工程 学 教科 书 里 的 内 容 ， 并 
且 有 了 数 千 个 应 用 实例 。 图 片 来 源 : 安东尼 。 贝 尔 。 


“通用 信息 最 大 化 学 习 原 理 ”(general infomax learning principle) 最 

大 限度 地 提高 了 通过 网 络 传递 的 信息 量 。 三 安东尼 当时 正在 研究 树 突 中 
的 信号 传输 。 树 突 就 像 细 长 的 电线， 大 脑 的 神经 元 通过 附着 在 树 突 上 的 
数 以 生计 的 突 触 收集 信息 。 他 和 赁 直觉 认为 ， 通 过 改变 树 突 中 离子 通道 的 
密度 ， 可 以 最 大 限度 地 提高 树 突 中 流通 的 信息 量 。 在 简化 问题 的 过 程 中 
《忽略 树 突 ) ， 安 东 尼 和 我 发 现 了 一 种 新 的 信息 理论 学 习 算 法 ， 我 们 称 


之 为 “独立 分 量 分 析 (ICA) ”， 它 解决 了 言 源 分 离 问题 〈 见 方 框 6.1) 。 


FRAN 
i) 


独立 分 量 分 析 已 经 有 了 数 千 个 应 用 实例 ， 而 且 已 经 出 现在 了 信号 处 
理 的 教科 书 中 。' 三 在 被 应 用 于 户外 场景 的 自然 图 像 的 碎片 中 时 ， 独 立 分 
量 分 析 的 独立 成 分 是 局 部 化 的 定向 边缘 滤波 器 〈 见 图 6-3) ， 类 似 于 猫 
和 猴子 的 视觉 皮层 中 的 简单 细胞 〈 见 图 5-4) 。 三 采用 独立 分 量 分 析 方 
法 时 ， 只 需要 很 少 的 信息 源 就 能 重建 一 幅 图 像 中 的 一 个 图 块 ， 这 种 重建 
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图 6-3 源 自 自然 图 像 的 独立 分 量 分 析 滤 波 器 。 使 用 左 图 自然 场景 图 像 中 的 图 块 
(12X12 像 素 ) 作为 输入 ， 通过 具有 144 个 输出 单元 的 独立 分 量 - 分 析 网 络 得 到 输出 。 
右 图 中 产生 的 独立 分 量 与 在 初级 视觉 皮层 中 发 现 的 简单 细胞 类 似 : 它们 具有 局 部 性 
和 定向 性 ， 分 为 正 区 域 (HH) PAKA (黑色 ) ， 灰 色 区 域 代表 零点 。 只 需要 几 
个 滤波 器 就 可 以 表示 任何 给 定 的 图 块 ， 这 一 bE Jf AR AR I “tr Rte” o ARARA: 
Michae | Lewicki; 右 图 来 源 : Bell and Sejnowski, “The ‘Independent 
Components’ of Natural Scenes Are Edge Filters,” figure 4. 


量 分 析 是 如 何 工作 的 


主 分 量 分 析 (PCA〉 和 独立 分 量 分 析 (ICA) 之 间 的 比较 。 图 
刻 中 的 圆 点 表示 两 个 麦 元 风 分 别 在 垂直 和 水 平 轴 上 的 输出 。 每 个 点 
的 坐标 是 单个 时 间 点 记录 在 两 个 麦 元 风 上 的 值 。PCA 是 一 种 非 冲 受 
欢迎 的 无 监督 学 习 技 术 ， 它 挑选 出 将 两 个 信号 等 分 的 方向 ， 将 它们 
的 混合 程度 最 大 化 ， 并 且 PCA 轴 始终 相互 垂直 。ICA 找 到 沿 点 的 方 
问 伸 展 的 轴 ， 来 表示 分 离 的 信号 ， 这 些 轴 可 能 不 是 垂直 的 。 


这 些 结果 证 实 了 20 世 纪 60 年 代 著 名 视觉 科学 家 霍 勒 斯 : 巴 洛 
(Horace Barlow) 的 猜想 ， 那 时 大 卫 : 休 伯 尔 和 托 斯 坦 : 威 泽 尔 已 经 在 视 
视 皮 层 中 发 现 了 简单 细胞 。 一 个 图 像 通常 包含 大 量 的 见 余 信息 ， 因 为 附 
近 的 像素 通常 具有 相似 的 值 〈 例 如 天 空 的 像素 ) 。 书 洛 猜想 ， 通 过 减少 
自然 场景 表达 中 的 元 余 ， 三 简单 细胞 就 能 够 更 有 效 地 传输 图 像 中 的 信 
息 。 整 个 学 界 花 了 50 年 的 时 间 ， 才 开发 出 数学 工具 来 证 实 他 的 直觉 。 

安东尼 和 我 还 认为 ， 独 立 分 量 分 析 被 应 用 于 上 自然 声音 时 ， 独 立 分 量 
是 具有 不 同 频率 和 持续 时 间 的 时 域 滤波 器 ， 关 似 于 在 听觉 神 经 系统 初期 
处 理 部 分 中 发 现 的 滤波 器 。 .三 这 使 得 我 们 相信 ， 在 试图 理解 感 观 信 号 是 
如 何在 视 党 皮层 最 早期 的 处 理 阶段 被 表征 这 一 基本 原则 的 道路 上 ， 我 们 
前 进 的 方向 是 正确 的 。 通 过 将 这 个 原理 扩展 到 线性 滤波 器 的 独立 特征 子 


空间 ， 就 可 以 在 视觉 交 层 中 建立 复杂 细胞 的 模型 。 二 

独立 分 量 分 析 网 络 包含 相同 数量 的 输入 和 输出 单元 ， 以 及 把 它们 完 
全 连接 起 来 的 一 组 权重 。 为 解决 育 源 分 离 问 题 ， 麦 元 风 的 声音 通过 输入 
层 输入 ， 每 个 麦 元 风 占 有 一 个 输入 单元 ， 而 独立 分 量 分 析 学 习 算法 《类 
似 感知 器 算法 ) 不 断 达 代 修 改 传递 到 输出 层 的 权重 ， 直 到 它们 收敛 。 但 
是 ， 不 同 于 感知 右 这 种 监督 学 习 算 法 ， 独 立 分 量 分 析 是 一 种 无 监督 学 习 
算法 。 它 使 用 输出 单元 之 间 的 独立 性 度量 作为 代价 函数 ， 但 并 不 知道 输 
出 目标 应 该 是 什么 。 为 了 使 输出 尽 可 能 独立 ， 权 重 不 断 被 修改 ， 原 始 声 
源 就 被 完美 地 分 离开 来 ， 或 者 如 果 它 们 彼此 并 不 是 独立 的 ， 其 相关 性 也 
会 被 尺 可 能 地 去 除 控 。 无 监督 学 习 可 以 在 许多 不 同类 型 的 数据 集中 发 现 
以 前 未 知 的 统计 结构 。 


将 独立 分 量 分 析 应 用 于 大 脑 


我 实验 室 里 的 其 他 人 将 安东尼 :贝尔 的 信息 最 大 化 独立 分 量 分 析 算 
法 应 用 于 大 脑 的 不 同类 型 的 记录 ， 由 此 引发 了 一 系列 的 顿悟 时 刻 。1924 
年 ， 汉 斯 : 伯 格 (Hans Berger) 从 头皮 上 记录 了 大 脑 的 第 一 个 电信 和 号 ， 
被 称 为 脑 电 图 。 神 经 科学 家 利用 这 些 复杂 的 振荡 信号 来 监听 我 们 不 断 变 
化 的 大 脑 状 态 ， 这 种 状态 随 我 们 的 警 党 性 和 感觉 运动 相互 作用 而 变化 。 
头皮 上 一 个 电极 处 的 电信 和 号 接收 来 自 大 脑 皮 层 内 许多 不 同 来 源 的 输入 ， 
也 接收 肌肉 和 眼球 运动 噪声 的 输入 。 每 个 头皮 电极 接收 来 自 大 脑 中 相同 
源 组 的 混合 信号 ， 这 些 信号 具有 不 同 的 振幅 ， 这 与 鸡尾酒 会 上 的 问题 如 
t — Fa 6 

20 世 纪 90 年 代 ， 斯 科 特 : 马 克 格 (Scott Makeig) 是 我 在 索 尔 克 研 究 
所 的 实验 室 里 的 研究 员 ， 他 使 用 独立 分 量 分 析 从 脑 电 图 记录 中 提取 了 大 
脑 皮 层 中 的 几 十 个 偶 极 源 ， 以 及 它们 各 自 的 时 间 过 程 〈 见 图 6-4) 。 偶 
极 子 是 大 脑 信息 源 最 简单 的 模式 之 一 。 最 简单 的 是 由 单一 静电 电荷 产生 
的 履 盖 整个 头皮 的 均一 模式 。 第 二 简单 的 模式 是 由 电流 直线 移动 产生 的 


偶 极 子 模式 ， 发 生 在 皮层 锥 体 神 经 元 中 。 把 偶 极 子 想象 成 一 个 箭头 ， 头 
皮 上 沿 箭头 的 方 同 为 正 ， 沿 稀 尾 的 方向 为 负 。 该 模式 窗 盖 了 整个 头 部 ， 

这 就 是 为 什么 分 离 同 时 被 激活 的 许多 大 脑 信 息 源 非常 困难 。 从 脑 电 图 提 
取 的 两 个 信息 源 一 一 IC2 和 IC3， 大 人 致 相当 于 图 6-4 中 的 侦 极 源 。 独 立 分 

量 分 析 还 分 离 了 噪声 ， 例 如 眼球 运动 和 电极 噪声 ， 这 些 噪 声 在 后 期 可 以 
以 很 高 的 精度 被 抹 除 (图 6-4 中 的 IC 1 和 IC4) 。 自 那 时 起 ， 数 以 千 计 已 
发 表 的 论文 都 在 使 用 独立 分 量 分 析 方 法 分 析 脑 电 图 记录 ， 并 在 使 用 独立 
分 量 分 析 方 法 分 析 大 量 脑 状 态 的 研究 领域 取得 了 重要 发 现 。 
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图 6-4 独立 分 量 分 析 被 应 用 于 头皮 脑 电 图 记录 。 在 俯视 角度 的 头皮 绘图 (STH 
上 ) 中 ， 黑 点 的 位 置 是 电极 ， 某 个 时 间 点 的 电压 以 微 伏 《( HV) 为 单位 用 彩色 标注 。 
左 侧 图 中 五 个 头皮 通道 显示 波动 中 的 脑 电 图 信号 受到 了 来 自 肯 眼 和 肌肉 信号 的 噪声 
污染 。 独 立 分 量 分 析 可 以 将 大 脑 成 分 与 嗓 声 分 开 ， 如 右 图 所 示 〈 其 中 “1C” 代 
表 “ 独 立 分 量 ”) 。1C1 是 基于 缓慢 时 间 过 程 的 瞬 眼 运动 ， 此 时 头皮 绘图 在 靠近 眼睛 
的 地 方 数值 最 高 《红色 ) 。1C4 是 肌肉 运动 噪声 ， 可 以 看 到 高 频率 、 高 振幅 的 噪声 和 
头皮 图 上 的 局 部 源 。102 和 103 是 大 脑 信 息 源 ， 分 别 表 示 为 头皮 上 的 偶 极 模式 (与 负 
值 蓝 色 区 域 相 对 的 正 值 红 色 区 域 ) ， 和 来 自 脑 电 图 所 记录 的 头皮 上 更 复杂 的 模式 
(如 左边 头皮 绘图 所 示 ) 。 图 片 来 源 : Tzyy-Ping Jung. 


马丁 . 麦 基 沃 恩 (Martin McKeown) 当时 是 我 实验 室 的 一 名 博士 后 
研究 员 ， 有 共有 神经 学 背景 。 他 研究 出 了 如 何 翻转 空间 和 时 间 ， 将 独立 分 
量 分 析 应 用 于 fMRI 的 记录 中 ( 见 图 6-5) 。 三 基于 fMRI 的 脑 成 像 在 大 脑 
中 数 以 万 计 的 位 置 对 与 神经 活动 间接 相关 的 血 氧 水 平 进 行 测量 。 在 图 6- 
5 中 ， 独 立 分 量 分 析 信 息 源 是 与 其 他 信息 源 具 有 共同 时 间 进 程 ， 但 在 空 
间 上 相互 独立 的 大 脑 区 域 。 空 间 域 的 稀 疏 性 意味 着 在 任何 给 定 的 时 间 ， 
只 有 少数 几 个 区 域 是 高 度 活 跃 的 。 


持续 与 任务 相关 MEONMEE 短期 与 任务 相关 


图 6-5 独立 分 量 分 析 被 应 用 于 fMRI 数据 。 每 个 分 量 由 一 个 大 脑 活动 图 和 一 个 时 间 过 
程 组 成 。 这 里 显示 了 几 种 不 同类 型 的 分 量 。 图 中 的 任务 代表 了 持续 5 秒 钟 的 视觉 刺 
激 ， 由 与 任务 相关 的 分 量 拾取 。 方 框 中 信号 的 时 间 进 程 约 为 一 分 钟 ， 任 务 重复 了 四 
次 ， 如 图 (a) 所 示 。 其 他 分 量 则 采集 了 诸如 头 部 运动 之 类 的 噪声 。 图 片 来 源 : MJ. 


McKeown, T.-P. Jung, S. Makeig, G. D. Brown, S. S. Kindermann, T.-W. Lee, 
and T. J. Sejnowski, *Spatially Independent Activity Patterns in 
Functional MRI Data during the Stroop Color-Naming Task, " Proceedings of 
the National Academy of Sciences of the United States of America95, no. 3 
(1998) : 806, figure 1. 


因为 独立 分 量 分 析 是 无 监督 的 ， 它 可 以 揭示 能 够 协同 工作 的 大 脑 区 
域 网 络 ， 并 能 够 扩充 试图 将 区 域 中 的 活动 与 感官 刺激 或 运动 反应 联系 起 
来 的 监督 搁 术 。 例 如 ， 独 立 分 量 分 析 已 被 用 于 揭示 来 日 受 试 者 的 fMRI 
记录 中 的 多 个 静 朋 状态， 这 些 受 试 者 只 是 被 要 求 在 扫描 仪 中 保持 不 动 。 
己 我 们 仍然 不 了 解 这 些 静 息 状 态 意 味 着 什么 ， 但 是 它们 可 以 代表 对 大 脑 
活动 负 员 的 一 部 分 大 脑 区 域 的 组 合 ， 例 如 我 们 在 做 白 日 梦 ， 被 一 件 烦 心 
事 困 扰 ， 或 是 正在 计划 晚餐 吃 什 么 的 时 候 。 


最 大 独立 性 原则 与 稀 跑 编码 原则 有 有关。 尽管 独 立 分 量 分 析 揭 示 了 许 
多 独立 的 分 量 ， 但 只 需要 其 中 的 一 小 部 分 束 能 重建 自然 图 像 中 指定 的 图 
块 。 这 个 原理 也 适用 于 视觉 皮层 ， 视 觉 皮层 的 细胞 数量 比 视网膜 的 输入 
细胞 多 100 倍 。 我 们 的 每 个 视网膜 都 有 100 万 个 神经 节 细 胞 ， 在 初级 视 党 
皮层 中 有 1 亿 个 神经 元 一 一 这 是 皮层 视觉 层级 中 的 第 一 层 。 视 网 膜 中 视 
觉 信号 的 紧凑 编码 ， 在 皮层 中 被 扩展 为 高 度 分 布 且 高 度 稀 玻 的 新 编码 。 
将 信息 扩展 到 更 高 维度 空间 的 方法 也 被 应 用 到 其 他 的 编码 方案 中 ， 其 中 
包括 在 听 沉 皮层 和 噢 觉 皮 层 中 发 现 的 编 合 。 一 类 被 称 为 “压缩 感知 算 
ik" (compressed sensing algorithms) 的 新 算法 将 稀疏 性 原理 进行 了 泛 化 
处 理 ， 用 来 提高 存储 和 分 析 复 杂 数 据 集 的 效率 。 三 


什么 在 操控 我 们 的 言行 


独立 分 量 分 析 的 故事 说 明了 技术 在 科学 和 工程 领域 取得 新 发 现 中 的 
重要 性 。 我 们 通 稼 将 技术 看 作 测 量 设备 ， 比 如 显微镜 和 放大 器 。 但 算法 
也 是 技术 ， 它 们 能 够 利用 旧 仪 器 获得 的 数据 得 出 新 的 发 现 。 脑 电 图 技术 
己 经 存在 了 将 近 100 年 ， 但 是 如 果 没 有 独立 分 量 分 析 ， 束 无 法 确定 潜在 


的 大 脑 信息 源 ， 大 脑 本 身 就 是 一 个 环 环 相 扣 的 算法 体系 ， 如 果 大 脑 的 某 
些 部 分 发 现 了 实施 独立 分 量 分 析 的 方法 ， 我 并 不 会 对 此 感到 惊讶 。' 


20 世 纪 90 年 代 ， 在 为 神经 元 网 络 开发 新 的 学 习 算法 的 过 程 中 ， 也 诞 
生 了 许多 其 他 的 发 现 ， 其 中 很 多 《如 独立 分 量 分 析 ) 现在 都 成 了 机 器 学 
习 中 的 数学 工具 。 这 些 算 法 被 舱 入 许多 常用 的 设备 中 ， 不 过 没有 一 个 标 
明了 “内 含 神经 网 络 "。 拿 耳机 或 手机 来 举 个 例子 。Te-Won Lee 和 Tzyy- 
Ping Jung 曾 经 是 我 实验 室 的 博士 后 研究 员 ， 他 们 后 来 创立 了 一 家 名 
为 “SoftMax” 的 公司 ， 在 禹 有 两 个 麦克 风 的 更 牙 耳 机 中 应 用 ICA 来 消除 背 
景 噪 声 。 这 样 的 设计 能 够 让 戴 耳 机 的 人 在 嘲 杂 的 餐厅 或 体育 赛事 中 听 到 
列 人 说 话 。2007 年 ，SoftMax 被 高 通 收购 《高 通 为 许多 品牌 的 手机 设计 
Fr) 。 而 如 今 ， 类 似 独 立 分 量 分 析 的 解决 方案 也 已 冉 入 10 亿 部 手机 
中 。 如 果 你 能 从 运行 独立 分 量 分 析 的 每 部 手机 上 分 到 一 分 钱 ， 那 你 现在 
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类 ， 我 们 的 体内 有 许多 网 络 ， 信 息 从 一 个 网 络 层 到 另 一 个 网 络 层 ， 从 分 
子 到 突 触 ， 到 神经 元 ， 到 神经 群 ， 直 到 形成 决策 ， 所 有 这 些 都 可 以 用 物 
理学 和 生物 化 学 的 法 则 来 解释 〈 见 图 4-4) 。 但 我 们 都 有 这 样 的 感受 ， 
是 我 们 上 自己， 而 非 物 理 或 生物 化 学 反应 ， 在 操控 我 们 的 一 言 一 行 。 我 们 
的 大 脑 神经 群 中 出 现 的 内 部 活动 如 何 引 导 我 们 做 出 决定 ， 例 如 阅读 这 本 
书 或 者 打 网 球 ， 一 直 是 一 个 谜 。 这 些 远 远 低 于 我 们 意识 水 平 的 决定 ， 在 
某 种 程度 上 是 由 神经 元 通过 基于 分 子 机 制 的 经 验 形成 的 突 触 相互 作用 形 
成 的 。 但 从 我 们 人 类 的 视角 来 看 ， 是 我 们 的 决定 导致 了 所 有 这 些 事件 在 
我 们 的 脑 中 发 生 : 内 省 行为 告诉 我 们 ， 因 果 关 系 中 的 因 和 有 果 ， 似 乎 与 物 
理 和 生物 化 学 领域 中 的 因 和 采 相 反 。 如 何 调和 这 两 个 观点 ， 是 一 个 深刻 


的 科学 问题 。 三 
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托尼 .贝尔 (Tony Bell) 正在 使 用 独立 分 量 分 析 和 近 红 外 光谱 来 研究 水 的 结构 。 他 试 
图 证 明 ， 在 当今 仪器 看 不 见 的 尺度 上 ， 水 形成 了 可 通过 光线 进行 沟通 的 连贯 结构 ， 并 形 
成 了 生物 分 子 生命 的 基底 。 这 个 想法 是 ， 当 “神经 机 制 ”(nerual schemes) 放松 到 足够 的 
程度 时 ， 体 内 广泛 分 布 的 原子 网 络 会 出 现 连贯 的 信息 ， 决 定 就 是 这 样 产 生 的 。 


07 
霍 普 菲尔德 网 络 和 玻 尔 效 受 机 


在 20 世 纪 80 年 代 ， 尚 在 罗切斯特 大 学 的 计算 机 科学 家 杰 罗 姆 . 费 尔 
fi (Jerome Feldman) 采用 了 联结 主义 Cconnectionist) 网 络 的 方式 来 
研究 人 工 智能 。 杰 罗 姆 几乎 没 说 错过 什么 话 ， 他 曾经 指出 ， 人 工 智 能 
使 用 的 算法 在 运行 了 数 十 亿 个 步骤 之 后 ， 却 常常 得 不 到 一 个 正确 的 结 
论 ， 而 大 脑 只 需要 经 历 大 约 100 个 步骤 ， 通 种 束 会 得 出 一 个 正确 的 结 
论 。 三 这 个 “100 步 法 则 ”当时 在 人 工 智 能 研究 人 员 中 并 不 像 现在 那样 受 
欢迎 ， 但 少数 人 ， 其 中 最 著名 的 是 卡 内 基 - 梅 隆 大 学 的 艾 伦 : 纽 维尔 ， 的 
确 已 经 开始 把 它 作为 一 种 约束 。 


有 一 次 我 被 困 在 了 纽约 州 的 罗切斯特 机 场 ， 术 罗 姆 好 心 留 咎 了 我 一 
晚 。 那 天 ， 我 参观 完 位 于 斯 克 内 元 塔 过 的 通用 电气 研究 实验 室 ， 准 备 返 
回 巴尔 的 摩 ， 在 回去 的 飞机 上 ， 听 到 飞行 员 通 知 我 们 罗切斯特 的 天 气 状 
况 。 我 这 才 发 现 坐 错 了 航班 。 落 地 后 ， 我 预订 了 飞 往 巴尔 的 摩 的 最 早 航 
班 ， 但 也 要 等 到 第 二 天 了 。 我 碰巧 遇见 了 杰 罗 姆 ， 他 刚 参 加 完 在 华盛顿 
特区 举办 的 一 次 委员 会 会 议 ， 正 准备 回 家 。 他 很 大 方 地 邀请 我 去 他 家 休 
恩 一 个 晚上 。 杰 罗 姆 后 来 去 了 加 州 大 学 伯克利 分 校 ， 但 每 次 我 被 困 机 场 
时 ， 都 会 禁不住 想起 他 。 


杰 罗 姆 区 分 了 “ 逮 遇 ”和 “整洁 ?的 联结 主义 模型 。 遵 遇 模 型 跟 杰 弗 里 . 
辛 顿 和 我 一 起 研究 过 的 模型 十 分 相似 ， 在 网 络 的 许多 单元 中 分 布 了 对 对 
象 和 概念 的 表征 。 而 杰 罗 姆 所 笃信 的 整洁 模型 ， 提 供 了 对 对 象 和 概念 严 
谨 的 计算 表征 ， 每 个 单元 上 只 有 一 个 标签 。 在 更 广泛 的 背景 下 ， 送 遇 科 
学 的 模型 使 用 近似 方法 来 获得 定性 的 答案 ， 而 整洁 科学 的 模型 致力 于 找 


到 问题 的 确切 解决 方案 。 事 实 上 ， 人 工 智 能 要 取得 进展 ， 需 要 同时 应 用 
这 两 种 方法 。 三 我 不 反对 立足 于 “中 明 ?的 方法 ， 但 我 会 尽 一 切 努 力 去 给 
出 一 个 更 “整洁 ”的 解释 ， 最 终 努 力 产 生 了 回报 : 杰 弗 里 和 我 后 来 都 因此 
获得 了 巨大 的 成 就 。 


约翰 ' 霍 普 菲 尔 德 的 伟大 之 处 


想 要 获得 物理 学 博士 学 位 ， 你 必须 解决 一 个 问题 。 好 的 物理 学 家 应 
该 有 能 力 解决 任何 问题 ， 但 伟大 的 物理 学 家 知道 要 解决 什么 样 的 问题 
约 戎 ' 霍 普 菲 尔 德 就 是 一 位 伟大 的 物理 学 家 。 在 凝聚 态 物 理学 领域 获得 
了 杰出 的 成 就 之 后 ， 他 的 兴趣 转 同 了 生物 学 ， 特 别 是 关于 “分 子 校正 ”的 
问题 。DNA【〔 脱 氧 核糖 核酸 在 细胞 分 裂 过 程 中 被 复制 时 ， 错 误 不 可 避 
免 ， 必 须 纠 正 这 些 错误 才能 保证 子 细胞 遗传 信息 的 准确 度 。 霍 普 菲 尔 德 
想 出 了 一 个 聪明 的 办 法 ， 并 解释 了 采用 这 个 方法 纠 错 的 过 程 是 怎么 实现 
的 ， 尽 管 ee 要 消耗 能 量 ， 但 随后 的 实验 表明 ， 他 是 正 
确 的 。 在 生物 学 研究 领域 ， 做 出 任何 正确 的 解释 都 是 一 项 了 不 起 的 成 
就 。 


尔 德 是 我 在 普林斯顿 大 学 读 博 士 期 间 的 导师 ， 那 时 他 刚 对 宰 
m a arene 《 趣 变 得 日 益 浓 厚 ， 他 开始 兴 
致 支 亏 地 给 我 讲述 ， 他 从 波士顿 神经 科学 研究 计划 (Neuroscience 
Research Program, NRP) 会 议 上 那些 神经 科学 研究 专家 的 演讲 里 所 学 
到 的 东西 。 我 发 现在 NPR 会 议 上 发 布 的 一 些小 型 研讨 会 会 议 文章 非常 有 
价值 ， 让 我 了 解 了 当时 人 们 正在 研究 什么 问题 ， 以 及 产生 了 哪些 想法 。 
我 现在 还 保留 着 一 份 由 传奇 神经 学 家 西 奥 多 . 霍 姆 斯 : 布 洛 殉 Theodore 
Homes Bullock) 整理 的 关于 神经 编码 的 研讨 会 会 议 文献 。 西 奥 多 后 来 
成 了 我 在 加 州 大 学 圣迭戈 分 校 的 同事 。 西 奥 多 和 艾 德 里 安 : 堆 里 奇 f 
(Adrian Horridge) 合 著 的 关于 无 兰 椎 动物 神经 系统 的 书 堪 称 经 典 。 三 
我 和 西 奥 多 在 模拟 珊瑚 礁 集体 行为 的 项 目 中 有 过 合作 ， 并 且 我 很 汞 笠 地 


成 为 他 在 2008 年 发 表 的 最 后 一 篇 学 术 论文 的 共同 作者 。 二 

与 前 层 单元 建立 了 反馈 连接 ， 并 与 同 层 单元 间 存 在 循环 连接 的 神经 
网 络 ， 要 比 仅 具有 前 馈 连 接 的 神经 网 络 复杂 得 多 。 包 含 具 有 正 〈 兴 奋 ) 
权重 和 负 (抑制 ) 权重 的 任意 连接 单元 的 通用 网 络 对 学 界 提出 了 一 个 数 
学 难题 。 虽 然 芝 加 哥 大 学 的 杰克 . 考 恩 (Jack Cowan) 和 波士顿 大 学 的 斯 
带 芬 - 格 罗斯 伯 格 (Stephen Grossberg) 在 20 世 纪 70 年 代 后 期 ， 通 过 证 明 
这 样 的 网 络 能 够 重 现 视觉 错觉 三 和 幻觉 三 ， 在 该 领域 取得 了 一 些 进 


展 ， 但 是 工程 师 发 现 这 种 网 络 并 不 能 解决 复杂 的 计算 问题 
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图 7-1 2538 - E d dE ef E XM REGE RAER KARANA (BH 
拍摄 于 1986 年 前 后 ) 。 霍 普 菲 尔 德 在 20 世 纪 80 年 代 设 计 了 一 个 以 他 自己 名 字 命 名 的 
神经 网 络 ， 开 启 了 深度 学 习 研 究 的 大 门 ， 这 一 设计 对 神经 网 络 研究 产生 了 开创 性 的 
影响 。 图 片 来 源 : M+ CHER. 
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1983 FWAR, SE. ERIS 我 参加 了 杰 罗 姆 : 费 尔 德 曼 在 
罗切斯特 大 学 组 织 的 一 场 讨 论 会 。 霍 普 菲尔德 告诉 我 们 ， := 种 
强 交 互 网 络 的 收敛 问题 。 他 证 明了 一 种 独特 的 非 线 性 网 络 模型 ， 即 现在 
的 “ 稚 普 菲尔德 网 络 *”， 能 确保 收敛 到 一 种 叫 “ 吸 引子 ”(attractor) 的 稳定 
状态 〈 见 图 7-2， 方 框 7.1) .三 《高 度 非 线性 网 络 很 容易 发 生 振 荡 ， 或 表 
人 把 吸引 子 
状态 做 成 信息 内 容 。 如 此 一 来 ， 霍 普 菲 尔 德 网 络 就 可 以 被 用 来 实现 一 
种 “内 容 可 寻 址 存储 ”(content-addressable memory) 。 存 储 的 信息 可 以 

只 用 信息 内 容 的 一 部 分 作为 提取 输入 ， 让 神经 网 络 完成 信息 填充 。 这 让 
人 联想 起 了 人 的 记忆 行为 ， 如 果 我 们 看 到 某 个 熟人 的 脸 ， 束 能 想起 那个 
d 的 内 容 。 
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图 7-2 霍 普 菲 尔 德 网 络 的 能 量 场景 图 。 (AB) 网 络 的 状态 可 以 被 看 作 是 能 量 表 面 
上 的 一 个 点 。 (4A) 每 次 更 新 可 以 将 状态 移动 到 其 中 一 个 局 部 能 量 最 小 值 ， 叫 

作 “ 吸 引子 状态 ”。 图 片 来 源 : A. Krogh, J. Hertz, and R.G. Palmer, 
Introduction to the Theory of Neural ComputationRedwood City CA: Addison- 
Wesley, 1991, left:figure 2.6; right: figure 2.2. 
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员 曾 认为 要 分 析 高 度 非 线性 网 络 的 一 般 情 况 是 不 可 能 的 。 当 网 络 中 的 
所 有 单元 被 同时 更 新 的 时 候 ， 所 引发 的 动态 情况 非常 复杂 ， 没 有 办 法 你 
证 收敛 。 三 但 是 霍 普 菲尔德 网 络 展示 出 ， ARa M 
行 的 时 候 ， 一 种 单元 组 彼此 双向 连接 并 且 权 重 相同 的 特殊 对 称 网 络 ， 
可 解 ， 并 且 最 终 是 能 够 收敛 的 。 


越 来 越 多 的 证 据 表 明 ， 海 马 体 (保存 关于 特殊 事件 和 独特 对 象 长 期 
记忆 的 大 脑 关 键 区 域 ) 中 的 神经 网 络 存在 像 霍 普 菲 尔 德 网 络 中 的 那 种 吸 
引子 状态 。 三 虽然 霍 普 菲尔德 模型 非常 抽象 ， 但 它 的 本 质 行 为 和 在 海马 
体 上 观察 到 的 行为 十 分 相似 。20 世 纪 80 年 代 ， 许 多 物理 学 家 都 曾 利 用 霍 
普 菲 尔 德 网 络 实现 了 由 物理 学 到 神经 科学 的 跨越。 使 用 理论 物理 的 复杂 
工具 来 分 析 神 经 网 络 和 学 习 算 法 的 过 程 中 ， 诞 生 了 很 多 惊人 的 发 现 。 物 
理 、 计 算 和 学 习 在 神经 科学 理论 领域 深刻 地 联系 在 一 起 ， 这 一 结合 成 功 
地 实现 了 对 大 脑 功能 的 诠释 。 

约翰 ' 霍 普 菲尔德 和 当时 在 贝尔 实验 室 的 大 卫 : 汤 (David 
Tank) ， 随 后 叉 展 示 了 一 种 霍 普 菲尔德 网 络 的 变 体 ， 其 中 的 单元 可 以 拥 
有 0 到 1 之 闻 的 连续 值 ， 三 能 够 很 好 地 解决 优化 问题 ， 例 如 * 旅 行商 问 
题 ”(traveling salesman problem) ， 该 问题 由 在 寻找 能 够 访问 多 个 城市 
的 最 短路 径 ， 每 个 城市 仅 访问 一 次 。 三 这 是 一 个 计算 机 科学 领域 众 所 周 
知 的 难题 。 网 络 的 能 量 函 数 包 含 了 路 径 的 长 度 ， 限 制 是 每 个 城市 仅 能 访 
问 一 次 。 经 过 初始 状态 ， 霍 普 菲 尔 德 和 汤 元 的 网 络 能 最 终 收敛 到 一 个 最 
小 能 量 状态 ， 表 明 找 到 了 一 条 较 好 的 路 径 ， 虽 然 不 一 定 是 最 佳 路 径 。 


局 部 最 小 值 与 全 局 最 小 值 


达 纳 : 巴 拉 德 (Dana Ballard) 在 1982 年 与 克里斯托弗 . 布 野 
(Christopher Brown) 一 起 撰写 了 一 本 关于 计算 机 视觉 的 经 典 闭 作 ， 三 
他 也 参加 了 1983 年 的 研讨 会 。 辛 顿 和 我 当时 正在 与 巴 拉 德 一 起 为 《 目 
然 》 杂 志 撰 写 一 篇 关于 图 像 分 析 新 方法 的 综述 。 三 该 文章 的 核心 想法 
是 ， 用 网 络 模型 中 的 节点 表示 网 像 中 的 特征 ， 网 络 中 的 连接 实现 了 特征 
间 的 约束 条 件 ; 互相 兼容 的 节点 具有 积极 的 相互 作用 ， 而 不 兼容 的 节点 
间 有 具有 消极 的 相互 作用 。 在 视觉 中 ， 必 须 找到 满足 所 有 约束 条 件 的 所 有 
特征 的 和 谐 表达 。 


霍 普 菲尔德 网 络 能 够 解决 这 种 约束 满足 问题 吗 ? 能 量 函 数 可 以 用 来 
衡量 网 络 满足 所 有 约束 的 程度 〈 见 方 框 7.1) 。 视 觉 问题 需要 一 个 最 佳 
解决 方案 ， 一 个 全 局 能 量 最 小 值 ， 但 是 霍 普 菲尔德 网 络 的 工作 原理 决定 
了 它 仅 能 提供 局 部 最 小 值 。《 科 学 》 杂 志 上 的 一 篇 文章 让 我 深 受 司 发 ， 
其 作者 斯 科 特 : 柯 克 帕 特 里 克 〈Scott Kirkpatrick) 当时 在 位 于 纽约 约克 
BoE (Yorktown Heights) 的 IBM 托 马 斯 : 沃 森 研 究 中 心 (Thomas J. 
Watson Research Center) 工作 。 己 柯 克 帕特里克 使 用 了 一 种 叫 作 “ 模 拟 
退火 ”(simulated annealing) 的 算法 来 解决 局 部 最 小 值 问 题 。 假 设 你 想 
把 一 堆 电 子 元 件 装 到 两 块 电路 板 上 ， 怎 么 放置 这 些 元 件 可 以 使 连接 元 件 
的 接线 数量 最 少 呢 ? 

较 差 的 解决 方案 就 是 ， 先 随机 安放 元 件 ， 然 后 每 次 移动 一 个 元 件 ， 
直到 找到 用 线 最 少 的 排 布 方案 。 因 为 当 移动 任何 一 个 元 件 都 无 法 减少 用 
线 时 ， 很 容易 陷入 局 部 最 小 值 的 陷阱 。 逃 出 这 个 陷阱 的 一 种 方式 就 是 ， 
允许 随机 跳 到 一 种 用 线 更 长 的 放置 方式 。 这 种 跳跃 的 概 紊 ， 开 始 时 会 很 
大 ， 随 后 慢 慢 减 小 ， 直 至 变 成 零 。 如 果 这 种 概率 减 小 的 速度 足够 慢 ， 元 
件 的 最 终 排 布 方式 会 达到 接线 的 全 局 最 小 值 。 在 冶金 业 ， 这 种 做 法 叫 作 
退火 。 将 金属 加 热 并 慢 慢 冷却 ， 在 这 一 过 程 中 会 形成 缺陷 最 小 的 较 大 的 
晶体 结构 ， 这 些 缺 陷 会 使 金属 过 脆 ， 或 出 现 裂纹 。 


在 霍 普 菲尔德 网 络 中 ， 每 个 单元 都 能 加 网 络 中 所 有 其 他 的 单元 
传递 输出 。 输 入 标记 为 »， 输 出 标记 为 yy。 连接 的 强度 ， 或 者 说 单 
元 之 间 的 权重 是 对 称 的 : Wij=Wjis 在 每 个 步骤 中 ， 其 中 一 个 单元 被 
更 新 为 输入 值 的 忠和， 并 和 一 个 阔 值 进行 比较 : 如 果 输 入 之 和 大 于 
闵 值 ， 输 出 就 是 1， 否 则 输出 就 是 0。 霍 普 菲 尔 德 展示 了 这 种 网 络 存 
在 一 个 能 量 函 数 ， 它 不 会 随 着 网 络 中 单个 单元 的 逐次 更 新 而 增长 : 

E-Y Wij Xi Xj 


最 终 ， 霍 普 菲 尔 德 网 络 会 达到 “吸引 子 状态 ”， 即 所 有 单元 值 不 
再 变化 ， 能 量 方程 达到 局 部 最 小 值 。 这 种 状态 等 同 于 存储 好 的 记 
忆 ， 可 以 通过 部 分 存储 好 的 状态 来 初始 化 网 络 ， 实 现 对 完整 记忆 的 
恢复 。 这 就 是 霍 普 菲尔德 网 络 实现 内 容 取 址 记忆 的 方法 。 所 存储 癌 
量 的 权重 可 通过 赫 布 突 触 可 塑性 (Hebbian synaptic plasticity) 得 
到 : 


Awij=axi Xj 


Awij 表 示 权 重 的 变化 ，a 表 示 学 习 速 率 ，N 表 示 和 存储 的 同 量 。 


该 图 由 戴尔 : 希 斯 (Dale Heath) 绘制 。 


在 霍 普 菲尔德 网 络 中 ， 模 拟 退 火 相 当 于 对 更 新 进行 "加热 ”， 这 样 能 
量 就 能 在 能 量 表 面 自由 上 下 。 因 为 持 元 在 高 温 下 可 以 随机 反 转 ， 如 果 温 
度 逐 渐 降 低 ， 霍 普 菲 尔 德 网 络 很 有 可 能 在 温度 为 零 时 收敛 到 能 量 最 低 状 
态 。 在 实际 操作 中 ， 模 拟 会 在 常温 条 件 下 让 网 络 达 到 平衡 状态 ， 这 样 网 
络 就 可 以 访问 周围 的 香干 状态 ， 并 且 在 一 个 更 广阔 的 范围 内 搜寻 可 能 的 
答案 。 

例如 ， 图 7-3 中 茧 影 的 图 案 是 存在 争议 的 。 这 取决 于 你 关注 的 是 哪 
个 部 分 ， 你 可 能 会 看 到 一 个 花瓶 或 两 张 侧 脸 ， 但 不 会 同时 看 到 这 两 种 图 
案 。 问 题 的 关键 在 于 ， 你 将 哪 部 分 看 成 图 形 ， 哪 部 分 看 成 背景 。 我 们 设 
计 了 一 个 玻 尔 效 曼 机 网 络 来 模仿 这 个 基于 图 形 一 音 景 的 决定 figure- 
ground decision) , 三 用 一 些 单 元 代表 被 关注 的 图 形 ， 其 他 单元 代表 图 
形 的 边缘 。 我 们 已 经 知道 ， 视 觉 皮 层 中 存在 由 边缘 激活 的 简单 细胞 ， 但 
是 图 形 可 能 位 于 边缘 的 任意 一 侧 。 我 们 的 玻 尔 兹 曼 机 网 络 通 过 两 组 边缘 
单元 实现 了 图 形 选 择 ， 每 组 单元 只 文 持 一 侧 的 图 形 。 这 类 神经 元 随后 在 
视觉 皮层 中 被 发 现 ， 被 称 为 “边界 归属 细胞 ”(border-ownerships 
cells) 。 — 


玻 尔 兹 曼 网 络 中 的 约束 可 以 通过 手动 设置 权重 来 实现 (图 7-4) 。 
在 图 形 单 元 之 间 存 在 兴奋 连接 ， 而 在 边 绿 单 元 之 间 存 在 着 抑制 连接 。 边 
缘 单 元 与 它们 所 指 问 的 图 形 单元 之 间 存 在 兴奋 性 连接 ， 能 够 文 持 图 形 单 
元 ， 并 与 相 背 离 的 图 形 单元 间 形 成 抑制 性 连接 。 三 注意 力 是 通过 对 一 些 
图 形 单位 产生 偏 位 (bias〉 而 实现 的 。 当 玻 尔 兹 曼 网 络 对 单元 使 用 和 霍 普 
非 尔 德 更 新 规则 时 ， 它 会 落 入 局 部 能 量 最 小 值 ， 这 些 局 部 能 量 最 小 值 在 
本 地 图 块 中 一 致 ， 但 在 全 局 上 并 不 一 致 。 当 更 新 中 加 入 了 噪声 时 ， 玻 和 尔 


效 受 网 络 可 以 跳出 局 部 最 小 值 ， 并 且 通 过 缓慢 退 火 降低 噪声 进度 ， 这 样 
一 来 网 络 的 能 量 函 数 就 可 能 得 到 全 局 一 致 的 能 量 最 小 值 〈 见 图 7-4) 。 
由 于 更 新 是 异步 和 独立 的 ， 因 此 网 络 可 以 由 具有 数 百 万 个 单元 并 行 工作 
的 计算 机 来 实现 ， 并 且 可 以 比 一 次 按 顺 序 执行 一 个 操作 的 数字 计算 机 更 
快 地 收敛 到 解决 方案 中 。 


图 像 

图 7-3 RRA TH AUR. (ER) 如 果 关 注 黑 色 图 形 ， 你 看 到 的 是 一 个 
有 白色 背景 的 花瓶 。 如 果 关 注 的 是 白色 背景 ， 那 你 会 看 到 两 张 互相 注视 的 脸 。 你 可 
以 来 回 变换 视角 ， 但 是 做 不 到 同时 看 到 两 种 图 和 案 。 (AB) 图 形 一 背景 网 络 模型 。 
两 种 单元 分 别 代表 了 物体 的 边缘 (RA) ， 和 某 个 像素 是 否 属于 图 形 或 者 背景 〈 方 

) 。 图 像 输 入 方向 为 从 下 到 上 ， 注意 力 输入 方向 是 从 上 到 下 。 其 中 ， LEATSA 
应 该 被 当 作 图 形 而 进 行 填充 时 ， 注 意 力 就 是 针对 该 区 域 所 产生 的 偏 傅 。 图 片 来 源 : 
P. K. Kienker, T. J. Sejnowski, G. E. Hinton, and L. E. Schumacher, 


*Separating Figure from Ground with a Parallel Network, " Perception 15 
(1986): 197-216, left: figurel; right: figure 2. 
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(上 图 ) 网 络 中 的 方形 单元 为 标识 图 形 


为 标识 轮廓 的 边界 单元 ， 连 接 单元 的 正 负 属性 也 被 一 同 标 出 。 


者 背离 图 形 。 


(FA) (a) 关注 于 图 形 C 内 部 区 域 的 网 络 示意 
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图 7-4 正在 分 
的 图 形 单元 ， 


图 。 温 度 三 刚 开 始 很 高 ， 单 元 在 开启 和 关闭 状态 之 间 不 停 变换 。 (b) 随 着 温度 下 
降 ， 在 指向 内 部 的 边缘 单元 的 支持 下 ，C 内 部 的 图 形 单元 开始 聚拢 ; 同时 ， 注 意 区 以 
外 或 没有 边缘 输入 的 单位 开始 消失 。 (c) 当 温 度 为 堆 时 ， 注 意 区 的 图 案 被 填 满 。 
(d) 如 果 注 意 区 移 向 外 围 ， 重 复 该 过 程 ， 则 外 部 区 域 会 被 填充 。 图 片 来 源 : P. K. 
Kienker, T. J. Sejnowski, G. E. Hinton, and L. E. Schumacher, 
*Separating Figure from Ground with a Parallel Network, " Perception15 
(1986): 197-216, below: figure 6; above: figure 3. 


那个 时 候 ， 我 已 经 在 哈佛 医学 院 的 斯 蒂 分 : 库 夫 勒 那里 完成 了 博士 
后 研究 ， 在 约 骑 电 普 金 斯 大 学 〈 位 于 巴尔 的 摩 市) 生物 物理 系 开 始 了 
我 的 第 一 份 工作 ; REE FME FANEK Of be te) d 
算 机 科学 系 担任 教 职 ， 在 那里 他 很 幸运 地 得 到 了 艾 伦 : 纽 维尔 的 文 持 ， 
艾 伦 对 人 工 智 能 的 新 方向 持 十 分 开放 的 态度 。 逻 兹 堡 和 巴尔 的 摩 离 得 很 
近 ， 所 以 杰 弗 里 和 我 可 以 在 周末 见面 。 我 们 将 这 一 霍 普 菲尔德 网 络 的 新 
版 本 称 为 “ 玻 尔 兹 曼 机 ”， 以 致敬 19 世 纪 的 物理 学 家 路 德 维 希 : 玻 尔 兹 曼 
(Ludwig Boltzmann) ， 他 是 统计 力学 的 创始 人 。 我 们 的 波动 性 神经 网 
络 模型 束 是 借助 统计 力学 的 工具 进行 分 析 的 ， 之 后 我 们 很 快 就 发 现 ， 该 
模型 也 是 一 个 强大 的 学 习 机 器 。 

在 恒定 的 “温度 ”下 ， 玻 尔 兹 曼 机 会 达到 平衡 。 在 平衡 状态 下 会 发 生 
一 些 神 奇 的 事情 : 多 层 神 经 网 络 学 习 的 大 门将 被 打开 。 而 此 前 ， 每 个 人 
MUN ENTER BOCA]. AK, AH HERAT EE, Det LAS 
尔 效 受 机 衍生 出 一 个 简单 的 学 习 算 法 。 访 算法 的 目标 是 执行 从 输入 单元 
到 输出 单元 的 映射 。 但 与 感知 器 不 同 的 是 ， 玻 尔 北 曼 机 在 输入 和 输出 层 
之 间 也 存在 一 些 单元 ， 我 们 称 之 为 “隐藏 单元 ”( 见 方 框 7.2〉 。 通 过 对 其 
呈现 输入 一 输出 对 和 应 用 学 习 算 法 ， 玻 尔 效 曼 网 络 学 会 了 实现 目标 映 
射 。 但 是 ， 其 目标 不 仅仅 是 要 记 住 输入 一 输出 对 ， 也 要 将 没有 被 用 于 训 
练 网 络 的 新 输入 正确 地 进行 分 类 。 此 外 ， 玻 尔 效 曼 机 也 在 通过 其 持续 不 
断 的 波动 状态 来 学 习 概 率 分 布 一 一 对 于 一 个 给 定 的 输入 模式 ， 每 个 输出 
状态 的 访问 频率 如 何 这 就 使 其 具备 了 生成 性 ， 学 习 之 后 ， 它 可 以 通 
过 钳制 每 个 输出 类 别 来 生成 新 的 输入 样本 。 


Witt EW 


令 人 惊讶 的 是 ， 玻 尔 效 曼 机 学 习 算法 在 神经 科学 领域 有 着 悠久 的 历 
史 ， 可 以 追溯 到 心理 学 家 唐纳德 . 赫 布 (Donald O. Hebb) 博士 ， 他 在 
《行为 的 组 织 》 一 书 中 假定 ， 若 两 个 神经 元 同时 被 激发 ， 它 们 之 间 的 突 
触 连接 应 该 会 增强 : 


二 进 制 玻 尔 兹 曼 单 元 


率 0.5 


0 
sk a ed 1 3 5 
A E/T 


和 在 霍 普 菲 尔 德 网 络 中 一 样 ， 玻 尔 效 曼 机 中 所 有 的 连接 都 是 对 
称 的 ， 并 且 其 中 的 二 进 制 单元 i 的 状态 值 s， 会 按照 上 图 中 的 Sigmoid 
函数 (sigmoid function) 提供 的 一 个 概率 ， 逐 个 被 更 新 成 1 或 0。 
Sigmoid 函 数 的 输入 值 AE 通 过 温度 T 来 进行 比例 缩放 。 输 入 层 和 输出 
层 都 是 “可 见 的 *， 也 就 是 说 它们 会 与 外 界 进行 交互 。“ 隐 藏 单元 代 


表 了 能 够 影响 可 见 层 单元 的 带 有 内 部 自由 上 度 的 特征 。 玻 尔 兹 曼 机 学 
习 算 法 有 两 个 阶段 :在 “清醒 ”阶段 ， 输 入 和 输出 会 被 钳制 
(clamped) 三 ， 当 网 络 达到 平衡 状态 后 ， 每 对 单元 状态 值 之 间 的 
相关 系数 会 被 计算 出 来 ;在 “睡眠 ?阶段 ， 输 入 和 输出 钳制 被 解除 ， 
每 对 单元 状态 值 之 间 的 相关 性 会 被 重新 计算 ， 其 中 的 权重 会 被 逐步 
更 新 : 
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让 我 们 假设 反射 活动 〈 或 “追踪 痕迹 ”) 的 持续 或 重复 ， 趋 向 
于 引起 持续 的 细胞 变化 来 增加 其 稳定 性 。 当 细胞 A 的 轴 突 接近 细胞 
B， 并 且 反 复 或 持续 地 参与 激发 细胞 B 时 ， 其 中 一 个 或 者 两 个 细胞 中 
都 会 发 生菜 种 生长 过 程 或 代谢 变化 ，A〔 作 为 激发 B 的 细胞 之 一 ) 的 
ACE Adde. E 


这 可 能 是 整个 神经 科学 领域 中 最 有 名 的 预言 。 后 来 在 海马 体 中 发 现 
了 赫 布 突 触 可 塑性 (Hebbian Synaptic Plasticity) ， 海 马 体 是 大 脑 中 控制 
长 期 记忆 的 重要 组 成 部 分 。 当 一 个 海马 锥 体 细 胞 接收 强 输入 信号 ， 同 时 
该 神经 元 也 发 生 了 放电 反应 时 ， 突 触 的 连接 强度 就 会 增加 。 随 后 的 实验 
表明 ， 这 种 强化 是 基于 突 触 的 发 射 絮 释放 与 受 体 神经 元 中 电压 升 高 的 结 
合 。 此 外 ， 这 种 结合 的 发 生 被 一 种 特殊 的 受 体 ， 即 NMDA (N- 甲 基 -D- 
RAAR) 谷 氨 酸 受 体 所 识别 。 它 触发 了 长 时 程 增强 (long-term 
potentiation， 简 称 LTP) ， 其 起 效 迅速 而 且 持续 时 间 长 ， 是 一 种 很 好 的 
长 期 记忆 基质 。 与 玻 尔 兹 曼 机 学 习 算 法 (见方 框 7.2) 十 分 相似 ， 突 触 
上 的 赫 布 可 塑性 是 由 输入 和 输出 之 间 的 一 致 性 决定 的 。 

更 令 人 尺 讶 的 是 ， 玻 尔 兹 受 机 需要 一 定 的 “睡眠 ?才能 学 习 。 它 的 学 
习 算 法 有 两 个 阶段 。 在 第 一 阶段 ， 即 “清醒 ?阶段 ， 随 着 输入 和 输出 模式 
被 钳制 到 期 望 的 映射 ， 网 络 中 的 单元 被 多 次 更 新 以 达到 平衡 ， 每 对 单元 
都 为 1 的 次 数 所 占 的 百分比 会 被 记录 下 来 。 在 第 二 阶段 ， 即 “睡眠 ” 阶 


段 ， 输 入 和 输出 单元 被 释放 ， 每 对 单元 在 自由 运行 状态 中 都 为 1 的 次 数 
百分比 也 被 记录 下 来 。 然 后 ， 每 个 连接 强度 按照 清醒 和 睡眠 阶段 一 致 率 
之 间 的 差异 ， 按 比例 进行 更 新 《见方 框 7.2) 。 睡 眠 阶段 的 计算 是 为 了 
确定 钳制 的 相关 性 中 哪个 部 分 是 由 外 部 原因 造成 的 。 在 不 去 除 内 部 产生 
的 相关 性 的 情况 下 ， 该 网 络 会 加 强 内 部 活动 模式 ， 并 学 习 忽略 外 部 的 影 
响 ， 这 是 二 联 性 精神 病 (folie à deux) 三 的 网 络 版 本 。 有 趣 的 是 ， 极 度 
的 睡眠 剥夺 会 导致 人 体 处 于 妄想 的 状态 ， 在 没有 窗户 和 恒定 照明 的 医院 
重症 监护 病房 中 ， 这 样 的 问题 并 不 罕见 。 精 神 分 裂 症 患 者 通常 患 有 睡眠 
障碍 ， 可 能 导致 他 们 患 上 万 想 症 。 这 使 我 们 确信 ， 我 们 正 沿 着 正确 的 方 
癌 理 解 大 脑 的 工作 原理 。 


学 习 识别 镜像 对 称 


玻 尔 兹 曼 机 可 以 解决 ， 但 感知 费 却 不 能 解决 的 一 个 问题 ， 就 是 如 何 
学 习 镜 像 对 称 。 三 人 体 是 沿 着 一 个 垂直 的 轴 两 边 对 称 的 。 我 们 可 以 用 这 
个 对 称 轴 生 成 大 量 随 机 图 案 ， 如 图 7-5 所 示 ， 也 可 以 采用 水 平 轴 和 对 和 角 
轴 对 称 。 在 我 们 的 玻 尔 效 曼 机 网 络 中 ， 按 照 10x10 排 布 的 知 干 块 二 进 制 
输入 被 投影 到 16 个 隐藏 单元 中 ， 然 后 再 投影 到 3 个 输出 单元 ， 每 个 输出 
单元 对 应 3 个 可 能 的 对 称 轴 中 的 一 个 。 在 接受 了 6000 个 对 称 输入 模式 的 
训练 后 ， 玻 尔 兹 曼 机 对 全 新 输入 的 对 称 轴 进 行 分 类 的 成 功率 为 90%。 感 
知 器 得 到 的 结果 不 会 比 随机 猜测 的 结果 好 ， 因 为 单一 的 输入 并 不 包含 关 
于 模式 对 称 性 的 信息 ， 必 须 对 输入 对 之 间 的 相关 性 进行 考察 。 值 得 注意 
的 是 ， 人 类 观察 者 看 到 的 输入 阵列 与 玻 尔 兹 曼 机 所 看 到 的 并 不 一 怪 ， 因 
为 玻 尔 兹 曼 机 的 每 个 隐藏 单元 部 从 整个 阵列 接收 输入 ， 并 不 芝 循 任何 特 
定 的 顺序 。 对 于 观察 者 来 说 ， 等 价 的 问题 是 要 随机 安排 阵列 中 输入 单元 
的 位 置 ， 这 会 使 阵列 在 观 窒 者 看 来 是 随机 的 ， 即 使 其 中 存在 隐藏 的 对 称 
t. 
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图 7-5 对 称 的 随机 图 案 。 每 个 10X10 的 阵列 都 存在 委 直 、 Pee S 
对 称 。 网 络 模型 的 目标 是 学 习 如 何在 没有 参与 网 络 模型 训练 的 新 样本 中 依据 对 称 轴 
进行 分 类 。 图 片 来 源 : T. J. Sejnowski, P. K. Kienker,and G. E. Hinton, 
“Learning Symmetry Groups with Hidden Units: Beyond the 

Perceptron, ” Physica22D (1986): 260- 275, figure 4. 


有 一 天 ， 我 正果 着 显 示 器 ， 以 每 秒 两 次 的 速度 读 出 每 个 输入 模式 的 
对 称 性 。 当 时 我 在 约 彰 : 霍 普 金 斯 大 学 心理 学 系 的 同事 尼 尔 .: 科 恩 〈Neal 
Cohen) 也 在 观察 这 个 屏幕 ， 但 他 却 不 能 区 分 这 些 对 称 性 ， 除 非 凑 近 了 
仔细 看 ， 他 对 我 的 这 项 本 事 感到 很 惊讶 。 与 玻 尔 效 曼 机 的 学 习 过 程 类 
似 ， 观 察 了 显示 器 数 日 之 后 ， 我 的 视 党 系统 被 训练 到 可 以 自动 检测 对 称 
性 ， 而 不 需要 在 屏幕 上 四 处 对 比 伍 看 。 尼 尔 和 我 设计 了 一 个 实验 ， 用 本 
科 生 作为 未 经 训练 的 考察 对 象 ， 观 察 他 们 在 这 一 任务 上 的 进展 。 三 开始 


时 ， 他 们 花 了 很 长 时 间 才 找 出 正确 的 对 称 性 ， 但 经 过 几 天 的 训练 以 后 ， 
他 们 的 速度 变 得 飞快 。 到 了 实验 后 期 ， 他 们 能 够 快速 、 轻 松 地 找到 对 称 
性 ， 甚 至 可 以 在 任务 过 程 中 与 我 们 进行 交谈 ， 得 到 的 答案 依然 准确 无 
误 。 这 是 非常 快速 的 感知 学 习 。 

我 在 约翰 : 霍 普 金 斯 大 学 教授 过 计算 生物 物理 学 ， 这 门 课程 吸引 了 
很 多 有 才华 的 学 生 和 研究 人 员 。 本 : 尤 哈 斯 (Ben Yuhas) 是 与 我 一 起 工 
作 的 电子 工程 系 的 研究 生 ， 他 在 写作 博士 论文 期 间 ， 训 练 了 一 个 神经 网 
络 来 阅读 展 语 。 .三 人 的 嘴巴 在 运动 过 程 中 包含 了 声音 的 信息 。 励 哈 斯 的 
网 络 将 中 部 的 图 像 转换 为 每 个 时 间 点 上 产生 声音 的 相应 频谱 。 这 一 技术 
可 以 辅助 处 理 有 噪声 的 声 谱 以 改善 语音 识别 。 他 的 研究 生 同 学 安 德 里 亚 
Wy- 2248 (Andreas Andreou) 是 希腊 族 塞 浦 路 斯 人 ， 他 当时 正在 
Barton Hall 大 楼 的 地 下 室 里 建造 模拟 超大 规模 集成 电路 必 片 〈 将 在 第 14 
章 中 进行 介绍 ) 。 在 20 世 纪 80 年 代 ， 许 多 院 系 的 教师 对 待 神 经 网 络 的 态 
度 都 不 太 友 善 ， 这 样 的 现象 在 很 多 机 构 中 都 非常 普 裔 ， 但 这 并 不 能 阻止 
尤 哈 斯 或 安 德 里 欧 研 究 的 脚步 。 事 实 上 ， 安 德里 欧 后 来 成 了 约 得 :和 霍 普 
金 斯 大 学 的 正教 授 ， 并 合作 建立 了 约翰 : 堆 普 金 斯 大 学 语言 和 语音 处 理 
中 心 。 尤 哈 斯 则 组 建 了 一 个 咨询 团队 ， 为 政府 和 企业 客户 提供 数据 科学 
咨询 服务 。 


学 习 识别 手写 数字 


最 近 ， 杰 弗 里 . 半 顿 和 他 在 多 伦 多 大 学 的 学 生 们 训练 了 一 个 带 有 三 
层 隐 藏 单元 的 玻 尔 效 曼 机 ， 能 够 对 手写 邮政 编码 进行 非常 准确 的 分 类 
〈 见 图 7-6) 。 三 由 于 玻 尔 兹 曼 网 络 具有 反馈 和 前 馈 连 接 ， 因 此 可 以 反 
站 运行 网 络 ， 钳 制 其 中 一 个 输出 单元 ， 并 生成 与 钳制 输出 单元 相对 应 的 
输入 模式 〈 见 图 7-7) 。 这 种 生成 性 网 络 能 捕获 训练 集 的 统计 结构 ， 而 
它们 生成 的 样本 也 会 继承 这 些 属性 。 就 好 像 这 些 网 络 进 入 了 睡眠 状态 ， 
网 络 最 高 层 的 活动 在 输入 层 产 生 了 梦境 一 般 的 状态 序列 。 


一 感应 500 个 单元 


这 可 能 是 
通道 的 项 —— 
| 
28 x 28 像素 


图 7-6 用 于 手写 数字 识别 和 生成 样本 的 多 层 玻 尔 效 曼 机 。 图 像 具 有 28X28 个 像素 ， 
可 以 是 白色 或 黑色 。 目 标 是 根据 10 个 输出 单位 (009) 对 数字 进行 分 类 。 图 片 来 源 : 
G. E. Hinton, “Learning Multiple Layers of Representation, ” Trends in 
Cognitive Sciences11 (2007) :428-434, figure 1. 
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图 7-7 由 经 过 训练 后 可 以 识别 手写 数字 的 多 层 玻 尔 效 曼 机 生成 的 输入 层 图 和 案 。 每 一 
行 都 是 通过 钳制 10 个 输出 单元 中 的 一 个 产生 的 〈 见 图 7-6) ， 并 且 输 入 层 在 上 述 示例 
之 间 持 续 变 化 。 这 些 数字 都 没有 在 训练 集中 出 现 过 一 一 它们 是 被 训练 有 素 的 网 络 的 
内 部 结构 “幻想 ”出 来 的 。 图 片 来 源 : G E. Hinton, S. Osindero and Y. Teh, 
“ADeep Learning Algorithm for Deep Belief Nets” , Neural 

Computation18 (2006) : 1527-1554, figure 8. 


尽管 神经 网 络 在 物理 学 和 工程 学 中 的 兴起 十 分 迅速 ， 但 传统 的 认 知 
科学 家 却 迟 人 迟 不 能 接受 它 作 为 理解 记忆 和 语言 处 理 的 形式 体系 。 除 了 拉 
荷 亚 的 并 行 分 布 处 理 (PDP) 研究 组 和 一 些 独立 的 研究 者 ， 符 号 处 理 仍 
然 是 业界 的 主流 方法 。 杰 弗 里 和 我 在 1983 年 参加 了 认 知 科学 协会 
(Cognitive Science Society) 的 会 议 。 会 议 期 间 ， 研 究 短期 记忆 和 意象 
的 心理 学 家 泽 农 : 派 利 夏 恩 (Zenon Pylyshyn) 表示 出 了 对 玻 尔 兹 曼 机 的 
不 届 。 他 旨 讲 台 上 泼 了 一 杯 水 ， 并 大 声 喊 道 : “这 不 是 计算 ! ”而 其 他 人 
则 认为 整个 领域 仪 仅 是 在 搞 统 计 罢 了 。 但 杰 罗 姆 :莱特 文 (Jerome 


Lettvin) 却 表示 ， 他 真 的 非常 喜欢 我 们 正在 做 的 事情 。 沫 特 文 在 1959 年 
与 温 贝 托 : 蕊 托 拉 那 (Humberto Matourana) 、 沃 伦 : 麦 卡 洛 克 (Warren 
McCulloch) 和 沃尔特 : 匹 茨 (Walter Pitts) 一 起 撰写 了 经 典 的 论文 《 青 
蛙 的 眼睛 告诉 大 脑 什么 》 CWhat the Frog's Eye Tells the Frog's Brain) 。 
三 文中 给 出 了 青蛙 视网膜 中 的 虫 类 探测 器 神经 元 对 小 黑 点 的 反应 最 为 强 
烈 的 证 据 ， 这 是 一 个 在 系统 神经 科学 领域 极 具 影响 力 的 想法 。 他 对 我 们 
羽翼 未 让 的 神经 网 络 模型 的 支持 是 该 领域 早期 发 展 中 的 重要 一 环 。 


无 监督 尝 习 和 度 层 及 育 


玻 尔 兹 曼 机 既 可 以 用 来 进行 监督 学 习 ， 即 输入 和 输出 都 被 钳制 ， 也 
可 以 用 于 无 监督 学 习 ， 即 只 有 输入 被 钳制 。 杰 弗 里 : 驻 顿 使 用 无 监督 的 
版 本 一 次 一 层 地 搭建 出 了 一 个 深度 玻 尔 效 受 机 。 三 从 连接 到 和 输入 单元 的 
- 层 隐藏 单元 开始 即 受 限 玻 尔 兹 曼 机 (restricted Boltzmann 
machine) ， 杰 弗 里 用 未 标记 的 数据 对 它 进 行 训练 ， 这 些 数据 比 标记 数 
据 更 容易 获得 〈 互 联网 上 有 数 十 亿 未 标记 的 图 像 和 录音 ) ， 可 以 使 学 习 
进度 更 快 。 无 监督 学 习 的 第 一 步 是 从 数据 中 提取 所 有 数据 共有 的 统计 规 
律 ， 但 第 一 层 隐 藏 单 元 只 能 提取 简单 的 、 用 感知 器 也 可 以 表现 的 特征 。 
下 一 步 是 将 权重 固定 到 第 一 层 ， 并 在 上 面 添加 第 二 层 单元 。 更 多 的 无 监 
督 玻 尔 北 曼 学 习 产生 了 更 复杂 的 一 组 特征 ， 可 以 不 断 重 复 这 一 过 程 来 创 
建 具 有 多 层 深度 的 网 络 。 


因为 上 层 的 单元 包含 更 多 非 线 性 的 低层 特征 组 合 ， 使 得 它们 可 以 作 
为 一 个 整体 ， 从 具体 的 特征 中 抽象 出 更 普 吉 的 特征 。 因 此 ， 在 上 层 进行 
的 分 类 变 得 容易 得 多 ， 只 需要 更 少 的 训练 样本 就 能 在 更 高 的 计算 水 平 达 
到 收敛 。 尽 管 如 何 描述 这 种 解决 方案 背后 的 数学 原理 依然 有 竺 商检， 但 
已 经 有 新 的 几何 工具 开始 在 这 些 深 度 网 络 中 轩 露 头角 了 。 三 皮层 似乎 也 
是 逐 层 生长 的 。 在 视觉 系统 发 育 的 早期 阶段 ， 作 为 第 一 层 从 眼睛 接收 输 
入 信号 的 神经 元 ， 初 级 视觉 皮层 中 的 神经 元 具有 很 高 的 可 塑性 ， 并 且 很 


容易 根据 视觉 输入 流 重 新 建立 连接 ， 这 种 连接 在 关键 时 期 结束 后 消失 
(这 部 分 在 第 5 章 已 经 讨论 过 ) 。 大 脑 后 部 的 视觉 区 域 和 其 他 感官 流 的 
层级 结构 最 先 发 育成 熟 ， 徘 近 大 脑 前 部 的 皮层 区 域 则 需要 更 长 的 时 间 。 
前 额 叶 皮层 ， 也 就 是 最 靠近 大 脑 前 端的 部 分 ， 直 到 成 年 早期 才 可 能 完 
发 育成 熟 。 在 关键 期 ， 皮 层 区 域 的 连接 接受 神经 活动 影响 最 大 ， 这 些 层 
登 的 关键 时 期 导致 了 皮层 的 逐渐 发 育 。 加 州 大 学 圣迭戈 分 校 的 认 知 科学 
RAS Hs HORS Jeffrey Elman) 和 伊 丽 莎 日 : 贝 次 (Elizabeth Bates? 
跟 其 他 同事 一 起 ， 针 对 皮层 的 逐渐 发 育 如 何 帮助 儿童 通过 了 解 世 界 而 获 
得 新 能 力 ， 给 出 了 联结 主义 网 络 角 度 的 解释 。 三 这 一 工作 为 解释 我 们 漫 
长 的 童年 如 何 使 人 类 成 为 最 善于 学 习 的 物种 ， 开 辟 了 一 个 新 的 研究 方 
问 ， 同 时 也 对 先前 围绕 某 些 与 生 俱 来 的 行为 产生 的 论调 提供 了 新 的 视 
角 。 


Si MPRA (Steven Quartz) 曾经 是 我 实验 室 里 的 博士 后 研究 
员 ， 现 在 在 加 州 理工 学 院 做 教员 。 我 们 在 合作 发 表 的 《骗子 、 爱 人 和 英 
雄 》 (Liars，Lovers and Heroes) 三 一 文中 曾经 写 道 ， 在 儿童 和 青少年 
时 期 的 大 脑 发 育 过 程 中 ， 经 验 可 以 深刻 地 影响 神经 元 的 基因 表达 ， 从 而 
改变 负责 行为 的 神经 回路 。 基 因 的 差异 性 以 及 环境 影响 之 间 的 交互 作 
用 ， 让 我 们 能 够 从 新 的 角度 认识 大 脑 发 育 的 复杂 性 。 这 一 活跃 的 研究 领 
域 超越 了 先天 与 后 天 的 辩论 ， 并 从 文化 生物 学 的 角度 对 其 进行 了 重新 定 
义 。 我 们 的 生物 特性 不 仪 促成 了 人 类 文明 的 诞生 ， 也 反 过 来 被 人 类 文明 
影响 着 。 三 最 近 的 一 项 发 现 为 这 个 故事 续 写 了 新 篇 章 : 当 神 经 元 之 间 突 
触 的 形成 在 早期 发 育 过 程 中 迅速 增加 时 ， 神 经 元 内 部 的 DNA 在 诞生 后 通 
过 一 种 甲 基 化 的 形式 进行 表 观 遗传 修饰 ， 这 种 甲 基 化 调 市 基因 的 表达 是 
大 脑 所 独 有 的 。" 三 这 种 表 观 遗传 修饰 可 将 我 和 史 蒂 文 之 前 设想 的 经 验 与 
基因 之 间 建 立 起 某 种 连接 。 

到 了 20 世 纪 90 年 代 ， 神 经 网 络 革 命 开 始 如 火 如 茶 地 进行 。 认 知 神经 
科学 领域 正在 扩展 ， 计 算 机 变 得 越 来 越 快 ， 但 还 不 够 快 。 玻 尔 效 曼 机 的 
技术 性 能 非常 出 色 ， 但 是 要 模拟 起 来 却 慢 得 让 人 无 法 忍受 。 真 正 帮 助 我 


们 取得 进展 的 是 一 种 更 快 的 学 习 算 法 ， 恰 恰 在 我 们 最 需要 它 的 时 候 ， 
与 我 们 不 期 而 遇 了 。 
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大 多 数 神经 元 可 以 做 出 决定 的 最 快速 度 大 约 为 10 毫 秒 ， 并 且 在 1 秒 内 做 出 决定 所 需要 
的 时 间 不 超过 100 时 步 。 
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08 
反问 传播 算法 


加 州 大 学 圣迭戈 分 校 成 立 于 1960 年 ， 现 已 发 展 成 为 生物 医学 研究 的 
主要 中 心 。 它 在 1986 年 成 立 了 世界 上 第 一 个 认 知 科学 系 。 = 大 卫 .和 鲁 姆 
险 特 〈 见 图 8-1) 在 那 时 已 经 是 一 位 杰出 的 数学 家 和 认 知心 理学 家 ， 他 
曾 在 以 符号 学 和 规则 为 基础 的 传统 人 工 智能 领域 工作 过 ， 这 类 研究 在 20 
世纪 70 年 代 的 人 工 智能 研究 中 占 主导 地 位 。1979 年 ， 我 在 加 州 大 学 圣 迭 
戈 分 校 由 杰 弗 里 : 辛 顿 组 织 的 研讨 会 上 第 一 次 见 到 了 大 卫 ， 当 时 他 开创 
了 一 种 新 的 探索 人 关心 理 的 方法 ， 他 和 詹姆斯 .麦克 莱 兰 称 之 为 并 行 分 
布 式 处 理 ”( 以 下 简称 PDP) 。 大 卫 总 是 能 对 问题 进行 深入 思考 ， 并 经 
常 提出 富有 洞察 力 的 评论 。 

玻 尔 兹 曼 机 学 习 算 法 可 以 学 习 如 何 解决 需要 隐藏 单元 的 问题 ， 这 表 
明 ， 训 练 多 层 网 络 并 突破 感知 器 的 限制 是 可 行 的 ， 而 这 种 观点 与 马 文 
明 斯 基 和 西 摩尔 - 帕 普 特 以 及 该 领域 大 多 数 人 的 观点 相左 。 网 络 中 的 层 
数 或 任 一 给 定 层 内 的 连接 性 都 不 存在 任何 限制 。 但 是 有 一 个 问题 ， 达 到 
平衡 和 收集 统计 数据 来 进行 模拟 的 速度 变 得 越 来 越 慢 ， 大 型 网 络 需要 花 
费 更 长 的 时 间 才能 达到 平衡 。 


图 8-1 1986 年 左右 在 加 州 大 学 圣迭戈 分 校 的 大 卫 。 便 姆 哈 特 ， 那 时 他 刚 出 版 了 两 卷 


《并 行 分 布 式 处 理 》 (Parallel Distributed Processing) 。 鲁 姆 哈 特 在 多 层 网 络 
模型 学 习 算 法 的 技术 开发 领域 有 很 大 的 影响 力 ， 并 用 该 技术 来 帮助 我 们 理解 语言 和 
思维 心理 。 图 片 来 源 : KE + Hue. 

原则 上 ， 可 以 构建 具有 大 规模 并 行 体系 结构 的 计算 机 ， 该 计算 机 比 
共有 每 次 只 进行 一 次 更 新 的 传统 冯 :' 话 依 曼 体 系 结构 的 计算 机 快 得 多 。 
20 世 纪 80 年 代 的 数字 计算 机 每 秒 只 能 执行 100 万 次 操作 。 今 天 的 计算 机 
每 秒 能 够 执行 数 十 亿 次 操作 ， 并 且 通 过 将 数 千 个 内 核 连接 在 一 起 实现 的 
高 性 能 计算 机 ， 其 速度 比 以 前 快 上 百 万 倍 一 一 技术 性 能 得 到 了 空前 的 提 
高 。 

“曼哈顿 计划 ”是 美国 在 无 法 保证 原子 弹 能 够 研制 成 功 的 情况 下 做 出 
的 260 亿 美元 的 财 注 《〈 以 2016 年 的 美元 价值 计算 ) ， 最 大 的 秘密 就 是 它 
的 确 有 成 功 的 苗 涉 。 当 使 用 玻 尔 兹 曼 机 可 以 训练 多 层 网 络 的 秘密 被 公开 
后 ， 许 多 新 的 学 习 算法 如 雨 后 春 备 般 不 断 涌现 。 在 杰 弗 里 : 广 顿 和 我 研 
究 玻 尔 兹 曼 机 的 同时 ， 大 卫 : 鲁 姆 哈 特 开 友 了 为 一 种 多 层 网 络 学 习 算 
法 ， 而 后 来 的 实践 证 明 ， 这 种 算法 的 效率 更 高 。 := 


算法 的 优化 


IR (Optimization) 是 机 器 学 习 中 一 个 关键 的 数学 概念 : 对 于 许 
多 问题 ， 可 以 找到 一 个 代价 函数 〈cost function) ， 而 问题 的 解决 方案 就 
是 代价 最 低 时 的 系统 状态 。 对 于 霍 普 菲尔德 网 络 来 说 ， 代 价 函 数 台 是 能 
量 ， 目 标 是 找到 使 网 络 能 量 最 小 化 的 状态 〈 如 第 6 章 所 述 ) 。 对 于 前 馈 
网 络 ， 用 于 学 习 的 利用 代价 函数 是 训练 集 输出 层 上 的 方才 之 和 。 “梯度 
PRE” (gradient descent) 是 一 种 能 够 最 小 化 代价 函数 的 通用 过 程 ， 实 现 
方法 是 对 网 络 中 的 权重 沿 降低 代价 最 快 的 方 回 进行 逐步 修改 。 三 如 有 果 将 
代价 函数 看 作 山 脉 ， 那 么 梯度 下 降 就 是 选择 同 山 脚下 滑动 的 最 快 路 径 。 

鲁 姆 哈 特 发 现 了 如 何 通 过 被 称 为 “误差 的 反问 传播 ”(backprop- 
agation of errors) ， 或 简称 为 “ 反 传 ”(backprop) 的 过 程 来 计算 网 络 中 
每 个 权重 的 梯度 《见方 框 8.1) 。 从 误差 已 知 的 输出 层 开始 ， 可 以 很 容 
易 地 计算 出 指向 输出 单元 的 输入 权重 的 梯度 。 下 一 步 就 是 使 用 输出 层 梯 
度 来 计算 上 一 层 权重 的 梯度 ， 以 此 类 推 ， 逐 层 回 到 和 输入 层 。 这 是 一 种 高 
效 计算 误差 梯度 的 方法 。 

尽管 不 像 玻 尔 效 曼 机 学 习 算 法 那样 拥有 优雅 和 深厚 的 物理 学 根源 ， 
但 是 反问 传播 效率 更 高 ， 并 且 推 动 该 领域 取得 了 快速 进展 。 由 大 卫 : 鲁 
姆 哈 特 、 杰 弗 里 : 辛 顿 和 罗 纳 德 :威廉 姆 斯 (Ronald Williams) GWA 
典 的 反 辐 传播 论文 于 1986 年 发 表 在 《上 自然 》 杂 志 上 ， 三 迄今 为 止 ， 该 论 
文 已 经 在 其 他 研究 论文 中 被 引用 超过 4 万 次 。《〈 世 界 上 发 表 的 所 有 论文 
里 有 一 半 从 未 被 引用 过 ， 甚 至 连作 者 自己 都 不 引用 ;一 篇 被 引用 了 100 
次 的 论文 都 会 在 领域 内 产生 巨大 反 啊 ， 所 以 很 显然 ， 这 篇 有 关 反 回 传 播 
的 文章 是 一 颗 重 磅 炸弹 。) 


8.1 
误差 反 同 传播 


隐藏 层 
误差 反 向 传播 


输入 4 
一 一 一 


输入 5 
一 一 一 一 


反 回 传播 网 络 的 输入 是 被 传播 的 前 饥 : 在 该 图 中 ， 左 侧 的 输入 
通过 连接 《箭头 ) 同 前 传播 到 隐藏 的 单元 层 ， 然 后 投影 到 输出 层 。 
输出 结果 与 训练 者 给 出 的 值 进行 比较 ， 差 值 被 用 来 更 新 连接 输出 单 
元 的 权重 ， 以 减少 误差 。 然后， 根据 每 个 权重 对 误差 页 献 的 多 少 ， 
通过 反 回 传播 误差 对 输入 单元 和 隐藏 层 之 间 的 权重 进行 更 新 。 利 用 
大 量 样本 进行 训练 ， 隐 苦 单 元 生成 了 可 区 分 不 同 输入 模式 的 选择 性 
特征 ， 这 样 一 来 它们 就 能 够 在 输出 层 中 对 不 同类 别 进行 区 分 。 这 一 
过 程 被 称 为 “表征 学 习 ” (representation learning) 。 


语 首 合 成 的 突破 


1984 年 ， 我 在 普林斯顿 昕 了 研究 生 查 尔 斯 : 罗 森 伯 格 (Charles 
Rosenberg) 关于 玻 尔 兹 曼 机 的 演讲 。 虽 然 这 通常 是 我 演讲 的 题目 ， 但 


这 上 段 演 讲 还 是 令 我 印象 深刻 。 查 尔 斯 问 他 是 否 可 以 去 我 的 实验 室 参 与 一 
个 夏季 研究 项 目 。 他 来 到 巴尔 的 摩 时 ， 我 们 已 经 转向 了 反 回 传播 领域 ， 
这 让 我 们 有 可 能 考虑 现实 级 别 的 问题 ， 而 不 是 之 前 处 理 的 那 种 玩具 级 别 
的 问题 。 由 于 碍 尔 斯 是 传奇 语言 专家 乔治 : 米 勒 (George Miller) 的 学 
生 ， 我 们 想 寻 找 一 个 恰到好处 的 语言 问题 ， 既 不 会 难 到 完全 找 不 到 头 
绪 ， 又 不 会 容易 到 存在 现成 的 解决 方法 。 语 言 学 是 一 个 具有 许多 分 文学 
科 的 广阔 领域 ， 例 如 : 音韵 学 (phonology) ， 涉 及 单词 的 发 音 ; 句法 
学 (syntax) ， 研 究 单词 在 一 个 句子 中 是 如 何 排列 的 ， 语 义学 
(semantics) ， 研 究 单词 和 句子 的 含义 ;还 有 语 用 学 〈pragmatics) ， 
研究 语 境 是 如 何 影响 语义 的 ， 等 等 。 我 们 诀 定 从 音韵 学 开始 着手。 


英语 是 一 种 特别 难 发 首 的 语言 ， 因 为 规则 很 复杂 ， 并 且 有 很 多 例外 
情况 。 例 如 ， 如 果 一 个 单词 的 最 后 一 个 辅音 后 面 跟着 一 个 不 发 首 的 字 
母 “e*”， 则 元 首 大 多 数 情 况 下 都 要 友 长 音 ， 如 “gave” 和 “brave”。 但 是 也 
有 例外 ， 例 如 “have”， 这 个 词 的 发 音 就 与 之 前 的 规则 相悖 。 我 在 图 书馆 
找到 了 一 本 书 ， 在 书 中 音韵 学 家 编 葡 了 这 些 规则 和 例外 ， 厚 达 数 百 页 。 
通关 例外 情况 中 也 会 有 规则 ， 而 有 时 例外 的 规则 中 还 存在 例外 情况 。 总 
之 ， 对 于 语言 学 家 来 说 , “一 路 下 来 ”都 是 规则 。 三 更 让 人 抓 耳 挠 腮 的 
是 ， 同 样 一 个 单词 ， 并 不 是 每 个 人 的 发 音 都 一 样 。 还 存在 很 多 方言 ， 
种 方言 也 都 有 自己 的 一 套 规则 。 


杰 弗 里 : 辛 顿 在 我 们 计划 的 早期 阶段 到 约翰 : 霍 普 金 斯 大 学 拜访 了 低 
尔 斯 和 我 ， 跟 我 们 说 他 认为 喘 语 发 音 太 难 掌 握 了 。 所 以 我 们 收 小 了 时 
心 ， 找 了 一 本 总 共有 大 约 100 个 字 的 儿童 早教 读物 。 我 们 设计 的 网 络 有 
一 个 由 7 个 字母 组 成 的 窗口 ， 每 个 字母 由 29 个 单元 (包含 空格 和 标点 符 
写 ) 表示 ， 共 203 个 输入 单元 。 研 究 目 标 是 预测 窗口 中 间 位 置 那个 字母 
的 读音 。 输 入 单元 与 80 个 隐藏 单元 相连 ， 隐 藏 单元 又 投射 到 26 个 输出 单 
元 ， 每 个 输出 单元 对 应 一 个 基本 发 音 ， 在 英语 里 被 称 为 “ 音 
M” (phonemes) 。 我 们 把 该 字母 发 首 网 络 叫 作 “ 话 语 网 络 ”( 见 图 8- 

2) 。 三 网 络 中 有 18 ”629 个 权重 ， 按 照 1986 年 的 标准 衡量 ， 这 是 个 十 分 


庞大 的 数字 。 而 按照 当时 的 数学 统计 标准 来 看 ， 根 本 没 法 进行 操作 。 有 
了 这 人 么 多 的 参数 ， 我 们 被 告知 训练 集 可 能 会 被 过 度 拟 合 ， 寻 致 网 络 无 法 
泛 化 。 

当 单 词 在 有 7 个 字母 的 窗口 中 依次 罕 过 时 ， 网 络 为 窗口 中 位 于 中 间 
的 字母 分 配 了 一 个 首位 。 项 目 中 花费 时 间 最 长 的 部 分 ， 是 手动 将 首位 与 
正确 的 字母 相 匹 配 ， 因 为 字母 的 数量 与 每 个 单词 中 音 位 的 数量 不 同 。 相 
比 之 下 ， 学 习 过 程 就 发 生 在 我 们 眼前 ， 其 表现 随 着 句子 在 窗口 中 循环 而 
变 得 越 来 越 好 。 当 学 习 收 敛 时 ， 网 络 在 有 100 个 单词 的 训练 集中 的 表现 
堪 称 完美 。 虽 然 对 新 单词 进行 测试 的 效果 很 凑 ， 但 由 于 我 们 对 在 这 样 一 
个 小 的 训练 集 上 成 功 泛 化 的 预期 并 不 高 ， 所 以 这 个 初步 结果 仍然 令 人 去 
FE o 


训练 者 
v 
/k/ 
输出 单元 OOOOOO 


Z5 
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图 8-2 话语 网 络 前 馈 网 络 模型 。 底 层 的 7 组 单元 代表 在 文本 间 移 动 的 窗口 中 的 字母 ， 
每 次 提取 一 个 字母 。 该 网 络 的 目标 是 正确 预测 位 于 中 间 位 置 的 字母 的 声音 ， 在 这 个 
例子 中 就 是 很 难 发 音 的 “c” 音 位 。 输 入 层 中 的 每 个 单元 与 所 有 隐藏 单元 都 建立 了 连 
接 ， 而 后 者 又 会 投射 到 输出 层 上 的 所 有 单元 。 反 向 传播 学 习 算 法 能 够 使 用 来 自 训 练 
者 的 反馈 来 训练 权重 。 正确 的 输出 模式 会 与 网 络 的 输出 结果 进行 比较 ， 在 这 个 例子 
里 ， 输 出 的 是 “k” 音 位 ， 那 么 误差 就 会 被 反 向 传播 给 前 面 若 干 层 上 的 权重 。 


随后 ， 我 们 使 用 了 含有 2 万 个 字母 的 布朗 语料库 (Brown Corpus) 


三 ， 并 为 每 个 字母 指定 了 音 位 以 及 重音 标记 。 字 母 和 声音 的 对 应 工作 花 
了 几 周 的 时 间 ， 但 是 学 习 开 始 后 ， 网 络 在 一 个 晚上 就 吸收 了 整个 训练 集 
的 信息 。 那 么 它 能 进行 泛 化 吗 ? 结果 证 明 ， 泛 化 的 结果 非常 漂亮 。 该 网 
络 已 经 发 现 了 秽语 发 首 的 规律 性 ， 并 且 可 以 识别 出 例外 情况 ， 所 有 这 些 
都 是 基于 相同 的 架构 和 学 习 算 法 。 虽 然 按照 今天 的 标准 来 看 ， 这 一 成 果 
微不足道 ， 但 我 们 的 网 络 很 好 地 证 明了 反 回 传播 网 络 如 何 能 够 有 效 地 表 
征 英 语音 前 。 这 是 我 们 得 到 的 第 一 个 暗示 ， 即 神经 网 络 学 习 语 言 〈 符 号 
表征 的 典型 代表 ) 的 方式 和 人 类 的 学 习 方式 相同 。 

在 获得 了 大 声明 读 的 能 力 后 ， 话 语 网 络 首先 经 历 了 一 个 胡言 乱 语 的 
阶段 ， 成 功 识 别 了 辅音 和 元 音 之 间 的 区 别 ， 却 将 音 位 "b” 分 配给 了 所 有 
辅音 ， 将 音 位 “a” 分 配给 了 所 有 的 元 音 。 刚 开始 ， 它 的 发 音 听 起 来 像 “ba 
ba”， 经 过 更 多 的 学 习 之 后 ， 发 首 偏 同 了 “ba ga da". KAMARA BIL 
呀 学 语 的 状态 非常 类 似 。 之 后 它 开始 能 够 正确 地 说 出 短 词 的 发 音 ， 最 后 
在 训练 结束 时 ， 我 们 已 经 可 以 听 懂 它 说 的 大 多 数 单词 了 。 

为 了 测试 话语 网 络 在 方言 上 的 表现 ， 我 们 找到 了 一 个 来 自 洛 杉 矶 郊 
外 的 拉丁 裔 男孩 接受 采访 时 的 音韵 翻录 材料 。 训 练 有 素 的 网 络 重新 创建 
了 一 段 该 男孩 带 有 西班牙 语 口音 的 英语 ， 谈 论 的 是 他 探望 自己 的 祖母 
时 ， 有 时 会 得 到 糖果 。 通 过 将 话语 网 络 的 输出 播放 到 一 个 叫 
作 *DECtalk” 的 语音 合成 器 中 ， 一 串 音 位 标签 被 转换 为 可 听 的 语音 ， 我 
记录 下 了 学 习 阶 段 中 的 一 系列 语音 片段 。 当 我 在 某 次 演讲 过 程 中 播放 这 
段 录 音 时 ， 人 台 下 的 观众 彻底 展 怀 了 这 个 网 络 直 接 证 明了 它 的 语言 能 
力 。 三 这 个 嗜 期 项 目的 结果 完全 超出 了 我 们 的 预期 ， 并 成 为 神经 网 络 学 
习 领 域 的 第 一 个 实际 应 用 。1986 年 ， 我 带 着 话语 网 络 参加 了 《今日 郁 》 
(Today show) 节目 ， 那 一 期 的 收视 率 很 怀 人 。 在 此 之 前 ， 神 经 网 络 一 
直 是 一 门神 秘 的 学 科 。 我 还 过 到 过 很 多 人 ， 他 们 在 观看 这 个 节目 时 是 第 
一 次 听 到 神经 网 络 这 个 概念 。 

虽然 话语 网 络 有 力 地 证 明了 一 个 神经 网 络 的 确 能 够 对 语言 的 某 些 方 
面 进行 表征 ， 但 它 并 不 是 反映 人 类 如 何 获得 阅读 技能 的 优质 模型 。 首 


先 ， 我 们 在 学 习 阅 读 之 前 就 先 学 会 了 说 话 。 其 次 ， 有 限 的 几 个 语音 规则 
就 能 帮助 我 们 开启 大 声 精确 姑 读 的 复杂 任务 。 但 是 ， 大 声 朗 读 很 快 就 变 
成 了 快速 的 模式 识别 ， 并 不 需要 有 意识 地 应 用 规则 。 大 多 数 会 说 英语 的 
人 都 会 在 阅读 刘易斯 : 卡 罗 尔 (Lewis Carroll) 的 诗 Jabberwocky 时 ， 不 由 
自主 地 读 出 “brillig”、“slithy” 和 “toves” 等 无 意义 的 词 ， 就 像 读 正 常 的 词 
一 样 ， 话 语 网 络 也 是 如 此 。 这 些 虚构 的 词 不 存在 于 任何 字典 中 ， 但 是 可 
以 触发 由 英语 中 相关 字母 模式 组 成 的 首位 。 

话语 网 络 给 观众 留 下 了 深刻 的 印象 ， 不 过 现在 ， 但 尔 斯 和 我 需要 对 
这 个 网 络 进行 分 析 ， 弄 清楚 它 到 底 是 如 何 工作 的 。 为 此 ， 我 们 对 隐藏 单 
元 中 的 活动 模式 进行 了 聚 类 分 析 (cluster analysis) ， 并 发 现 话语 网 络 察 
觉 到 了 相似 的 元 音 和 辅音 的 分 类 ， 这 和 语言 学 家 们 已 经 识 列 出 的 分 类 相 
Ee Hw gA (Mark Seidenberg) 和 人 詹姆斯 :麦克 羔 兰 采用 了 一 种 
类 似 的 方法 作为 研究 的 起 点 ， 将 其 与 儿童 在 学 习 赔 读 时 经 历 的 一 系列 阶 
段 进 行 了 详细 比较 。\ 寺 ) 

话语 网 络 以 出 人 意料 的 方式 影响 了 这 个 世界 。 作 为 约翰 :' 霍 普 金 斯 
大 学 托马斯 :詹金斯 (Thomas C. Jenkins) 生物 物理 系 的 一 名 教员 ， 我 开 
始 对 蛋白 质 折 有 登 的 问题 产生 了 兴趣 。 和 蛋白 质 是 由 一 系列 氢 基 酸 折 登 成 的 
复杂 的 结构 ， 该 结构 赋予 了 和 蛋白质 广泛 的 功能 ， 例 如 血红 利和 白 ， 它 能 够 
与 血红 细胞 中 的 氧 结合 。 根 据 氨 基 酸 序列 来 预测 梨 白 质 的 三 维 形状 是 一 
个 难度 很 高 的 计算 问题 ， 对 大 多 数 香 白质 来 说 ， 即 便 使 用 功能 最 强大 的 
计算 机 也 没 办 法 实现 。 然 而 ， 有 一 种 单元 结构 相对 更 容易 预测 ， 被 称 状 
二 级 结构 Csecondary structures) 。 在 二 级 结构 中 ， 氮 基 酸 以 螺旋 、 和 平面 
或 无 规 卷 曲 的 方式 缠绕 。 生 物 物 理学 家 们 使 用 的 算法 考虑 了 不 同和 氨基 酸 
的 化 学 性 质 ， 但 他 们 的 预测 还 不 足以 解决 三 维 空间 的 折 丢 问题 。 


钱 宁 是 我 实验 室 的 一 年 级 研究 生 ， 他 是 1980 年 在 中 国 所 有 物理 系 的 
学 生 中 ， 为 数 不 多 被 选中 来 美国 攻读 研究 生 谍 程 的 人 之 一 。 我 们 想 知 
道 ， 如 果 为 每 个 筑 基 酸 分 配 螺旋 、 平 面 或 无 规 卷曲 的 参数 ， 话 语 网 络 是 
个 可 以 通过 一 串 妥 基 酸 序列 来 预测 香 白 质 的 二 级 结构 。 这 是 一 个 重要 的 


问题 ， 因 为 蛋白 质 的 三 维 结构 决定 了 它 的 功能 。 输 入 由 字母 序列 变 成 了 
氨基 酸 序列 ， 而 预测 的 结果 由 音 位 变 成 了 二 级 结构 。 训 练 集 是 由 X 射 线 
晶体 学 确定 的 三 维 结构 。 让 我 们 意 想不到 的 是 ， 它 对 于 新 乍 白质 的 二 级 
结构 的 预测 ， 要 远 远 好 于 基于 生物 物理 学 的 最 佳 方法 ， 三 这 一 具有 里 程 
碑 意 义 的 研究 是 机 器 学 习 在 分 子 序 列 中 的 首次 应 用 ， 该 领域 现在 被 称 为 
生物 信息 学 (bioinformatics) 。 


另 一 个 学 会 了 如 何 形 成 瑞 语 动词 过 去 时 的 网 络 ， 成 了 认 知 心理 学 领 
域 中 备 受 争议 的 问题 ， 基 于 规则 的 保守 涛 与 前 卫 的 PDP 研 究 组 展开 了 激 
烈 的 争论 。 三 形成 过 去 时 的 常规 方法 是 给 英文 动词 加 上 后 绥 <*ed”， 例 如 
把 “train” 变 成 “trained”。 但 是 有 不 规则 形式 的 例外 ， 例 如 把 “run” 变 
成 “ran”。 神 经 网 络 可 以 很 好 地 适应 规则 和 例外 情况 。 虽 然 人 们 在 这 一 点 
上 已 经 很 少 争 论 了 ， 但 关于 规则 的 显 式 表征 (explicit representation) 在 
大 脑 中 的 角色 这 一 问题 ， 仍 然 有 待 回答。 最 近 利 用 神经 网 络 学 习 语 言 的 
实验 支持 了 届 折 形态 学 Gnflectional morphology) 中 的 逐步 获取 概念 ， 
这 与 人 类 的 学 习 方 式 是 一 致 的 。 三 深度 学 习 与 谷歌 翻译 和 其 他 自然 语言 
应 用 相 结 合 ， 在 捕捉 语言 细微 差别 上 获得 的 成 功 ， 进 一 步 文 持 了 大 脑 不 
需要 使 用 显 式 语言 规则 的 可 能 性 ， 即 便 其 实际 行为 可 能 体现 了 相反 的 结 


论 。 


ARRE HW, KE REH (David Touretzky) 和 我 于 1986 年 在 
卡 内 基 - 梅 隆 大 学 组 织 了 第 一 期 联结 主义 嗜 期 课程 〈 见 图 8-3) ， 那 时 候 
只 有 少数 几 所 大 学 开设 了 神经 网 络 课程 。 在 一 个 基于 话语 网 络 的 小 游戏 
中 ， 学 生 们 逐 层 列队 ， 每 个 学 生 代 表 网 络 中 的 一 个 单元 《尽管 他 们 在 传 
播 “Sejnowski> 中 的 “*j” 时 发 生 了 错误 ， 因 为 它 的 发 音 类 似 于 “y”， 并 不 遵 
循 瑞 文 发 音 模式 ) 。 这 些 学 生 中 的 许多 人 随后 都 陆续 获得 了 重要 发 现 ， 
并 开创 了 各 自 的 事业 。1988 年 ， 第 二 期 暑期 课程 在 卡 内 基 - 梅 隆 大 学 开 
办 ，1990 年 第 三 期 的 举办 地 是 加 州 大 学 圣迭戈 分 校 。 新 的 想法 在 经 历 了 
一 代 人 的 时 间 后 ， 才 进入 主流 研究 领域 。 这 些 蠕 期 课程 让 所 有 人 受益 菲 
浅 ， 也 是 我 们 在 早期 推广 该 领域 的 最 佳 投资 。 


图 8-3 卡 内 基 - 梅 隆 大 学 1986 年 联结 主义 时 期 课程 的 学 生 。 杰 上 弗 里 。 辛 顿 是 第 一 排 右 
数 第 三 位 ， 他 的 两 边 分 别 是 我 《 右 ) 和 诬 姆 斯 。 麦 克 莱 兰 。 这 张 照片 成 了 当今 神经 
计算 领域 的 “名 人 录 ”。20 世 纪 80 年 代 的 神经 网 络 ， 很 像 是 存在 于 20 世 纪 的 21 世 纪 
科学 。 图 片 来 源 : APB $M, 


神经 网 络 的 重生 


由 鲁 姆 哈 特 和 麦克 莱 兰 编辑 的 两 卷 《 并 行 分 布 式 处 理 》 于 1986 年 出 
版 ， 已 经 成 为 当今 的 经 典 闭 作 。 这 和 是 第 一 套 曾 述 神 经 网 络 和 多 层 学 习 算 
法 对 理解 精神 和 行为 现象 的 影响 的 书籍 。 它 的 销量 超过 了 5 万 僚 ， 在 学 
术 领 域 算 得 上 是 畅销 书 了 。 神 经 网 络 在 经 过 了 反 向 传播 的 训练 后 ， 其 隐 
藏 单元 具备 了 类 似 视觉 系统 中 皮层 神经 元 的 属性 ， 三 而 且 其 展现 出 的 故 
隐 模 式 ， 也 和 人 类 在 大 脑 受 损 后 产生 的 缺 陶 有 很 大 的 相似 性 。 三 


弗 表 西 斯 : 克 里 克 是 PDP 小 组 的 成 员 ， 参 加 了 小 组 大 部 分 的 会 议和 讲 
座 。 在 关于 并 行 分 布 式 处 理 模型 如 何 具有 生物 特性 的 争论 中 ， 他 认为 应 
该 将 它们 看 作 可 行 性 证 明 ， 而 不 是 大 脑 的 标准 模型 。 他 为 ” 《并行 分 布 


式 处 理 》 一 书 撰写 了 其 中 一 个 章节 ， 介 绍 了 当时 我 们 所 了 解 的 大 脑 皮 
层 。 而 我 写 的 那 一 章 ， 则 总 结 了 当时 我 们 对 大 脑 皮层 的 哪些 方面 还 不 太 
了 解 。 如 果 这 些 章节 是 今天 写 下 的 ， 都 会 比 原 来 的 版 本 要 长 得 多 。 


20 世 纪 80 年 代 还 有 一 些 成 功 案 例 并 不 为 人 所 知 。 基 于 神经 网 络 技术 
的 最 赚钱 的 公司 之 一 是 HNC Software f PRA a), EHE (AE a oe REE AK 
fk (Robert Hecht-Nielsen) 创立 ， 该 公司 使 用 神经 网 络 来 防止 信用 卡其 
诈 。 赫 克 特 -尼尔森 曾 在 加 州 大 学 圣 迭 蕊 分 校 的 电子 与 计算 机 工程 系 任 
教 ， 教 授 过 一 门 关 于 神经 网 络 实际 应 用 的 热门 课程 。 每 天 都 有 信用 卡 信 
恩 被 全 球 网 络 犯罪 分 子 盗 取 。 信 用 卡 的 交易 数据 规模 十 分 庞大 ， 从 中 挑 
出 可 疑 的 信息 是 一 项 艰巨 的 任务 。 在 20 世 纪 80 年 代 ， 工 作 人 员 要 在 短 时 
间 内 做 出 是 否 批准 或 拒绝 某 项 信用 卡 交 易 的 决定 ， 而 这 导致 了 每 年 1500 
多 亿美 元 的 交易 存在 欺诈 行为 。HNC Software 有 限 公 司 使 用 神经 网 络 学 
习 算 法 ， 以 远 高 于 人 类 的 准确 度 检 测 信 用 卡 坎 诈 行 为 ， 每 年 为 信用 卡 公 
司 节省 了 数 十 亿美 元 。2002 年 ，HNC 被 美国 个 人 消费 信用 评估 公司 
(Fair Isaac and Company, FICO) 以 10 亿 美元 的 价格 收购 ， 后 者 以 发 
布 信用 评分 而 闻名 。 


观察 神经 网 络 的 学 习 过 程 颇 有 些 神奇 ， 它 不 断 以 微小 的 步伐 优化 目 
号 的 表现 。 这 个 过 程 会 十 分 缓慢 ， 但 是 如 宁 有 足够 的 训练 样本 ， 并 且 网 
络 足够 大 ， 学 习 算 法 就 可 以 找到 一 个 很 好 的 能 够 汉化 的 表征 方式 ， 以 适 
应 新 的 输入 。 采 用 随机 选择 的 一 组 初始 权重 并 重复 该 训练 过 程 时 ， 每 次 
都 会 学 习 到 不 同 的 网 络 ， 但 都 具有 相似 的 性 能 。 许 多 网 络 可 以 解决 同样 
的 问题 ， 这 就 暗示 了 当 我 们 重建 不 同 个 体 大 脑 的 完整 连接 集 时 ， 应 该 怀 
有 何 种 期 待 。 如 果 许 多 网 络 表 现 出 了 相同 的 行为 ， 理 解 它 们 的 关键 就 在 
于 大 脑 所 使 用 的 学 习 算法 ， 而 这 个 算法 应 该 更 容易 梓 发 现 。 


理解 真正 的 深度 学 习 


在 同 优 化 (convex optimization) 问题 中 ， 不 存在 局 部 最 小 值 ， 可 以 


保证 收敛 发 生 在 全 局 最 小 值 处 。 但 在 非 凸 优化 问题 中 ， 和 情况 就 不 同 了 。 
优化 专家 告诉 我 们 ， 由 于 在 隐藏 单元 网 络 中 学 习 是 一 个 非 凸 优化 问题 ， 
所 以 我 们 只 是 在 浪费 时 间 一 一 我 们 的 网 络 会 陷入 局 部 最 小 值 〈 见 图 8- 
4) 。 但 经 验证 据 表 明 ， 他 们 错 了 。 为 什么 呢 ? 我 们 现在 知道 ， 在 维度 
很 高 的 空间 中 ， 代 价 函 数 的 局 部 最 小 值 是 很 罕见 的 ， 直 到 学 习 的 最 后 阶 
段 才 会 出 现 。 在 早期 阶段 ， 几 乎 所 有 的 方 同 都 是 下 坡 ， 而 在 下 坡 的 过 程 
中 存在 鞍点 ， 一 些 方 癌 会 错误 地 开始 上 升 ， 而 在 其 他 维度 则 继续 下 降 。 


产生 网 络 会 陷入 局 部 最 小 值 的 直觉， 是 因为 解决 低 维 空间 中 的 问题 时 ， 
逃生 方向 的 数量 要 少 得 多 。 
非 凸 代价 函数 


凸 代价 函数 


J(0) 


0 0 


图 8-4 非 凸 代价 函数 和 凸 代价 函数 。 这 些 图 形 将 代价 函数 J(6) 绘制 为 参数 6 MH 
数 。 丁 函数 只 有 一 个 最 小 值 ( 右 图 ) ， 即 从 表面 任何 位 置 向 下 移动 都 可 达到 的 全 局 
最 小 值 。 想 象 一 下 ， 你 是 一 名 滑雪 者 ， 并 始终 将 滑雪 板 朝 向 最 陆 哨 的 下 坡 方向 ， 保 
证 你 一 定 会 滑 到 底 。 相 比 之 下 ， 非 凸 代价 函数 可 以 包 侈 局 部 最 小 值 〈 左 图 ) ， 这 些 
则 是 陷阱 ， 让 你 无 法 通过 一 路 下 坡 找到 全 局 最 小 值 。 因 此 ， 非 凸 代价 函数 很 难 优 
化 。 不 过 这 个 一 维 的 例子 具有 一 定 的 误导 性 。 当 有 许多 参数 时 《通常 在 神经 网 络 中 
有 教育 万 个 参数 ) , RAPERA, AXZSARLAGLOE, HAS LAL 
上 向 下 媚 隐 。 当 你 位 于 鞍点 上 时 ， 总 会 存在 一 个 下 坡 的 方向 。 

目前 的 深层 网 络 模型 有 数 百 万 个 单元 和 数 十 亿 的 权重 。 统 计 学 家 在 
传统 上 只 用 少量 参数 分 析 简 单 模型 ， 这 样 就 可 以 用 较 小 的 数据 集 来 证 明 
定理 。 而 拥有 数 十 亿 个 维度 的 空间 对 他 们 来 说 简直 融 是 一 场 亚 梦 。 他 们 
同 我 们 保证 ， 有 这 么 多 的 参数 ， 对 数据 的 过 上 度 拟 合 绝 对 是 不 可 避免 的 : 
我 们 的 网 络 只 会 简单 地 记 住 训练 数据 ， 但 无 法 泛 化 以 适应 新 的 测试 输 
入 。 但 是 ， 使 用 正则 化 Cegularization) 手段 ， 比 如 在 已 有 权重 对 学 习 
没有 任何 贡献 时 ， 可 以 通过 强迫 它们 进行 衰减 来 缓解 过 度 拟 合 的 现象 。 


一 个 特别 巧妙 的 正则 化 技术 ， 叫 作 “ 失 活 ”(dropout) ， 其 发 明 者 是 
WAE M. 三 在 每 个 学 习 周 期 (epoch) ， 当 从 许多 训练 实例 中 估计 
出 梯度 ， 并 对 权重 进行 更 新 时 ， 有 一 半 的 单元 束 会 被 随机 地 和 暂时 从 网 络 
中 剔除 一 一 这 残 意 味 着 ， 每 个 周期 中 训练 的 都 是 不 同 的 网 络 。 其 导致 的 
结果 就 是 ， 在 每 个 周期 中 需要 训练 的 参数 都 更 少 ， 并 且 与 在 每 个 周期 中 
训练 相同 的 大 型 网 络 相 比 ， 单 元 之 间 的 依赖 关系 更 少 。 失 活 过 程 将 深度 
学 习 网 络 的 错误 率 降 低 了 10%， 这 是 一 个 很 大 的 改进 。2009 年 ， 网 飞 
(Netflix) 举办 了 一 场 公开 竞赛 一 一 第 一 个 将 他 们 推荐 系统 的 错误 减少 
10% 的 人 ， 会 得 到 100 万 美元 的 奖金 。 三 几乎 每 个 机 器 学 习 领 域 的 研究 
生 都 参与 了 苋 争 。 网 飞 的 这 笔 奖金 很 可 能 启发 了 价值 1000 万 美元 的 研 
究 。 现 在 ， 深 度 网 络 已 经 成 为 在 线 流 媒体 的 核心 技术 。 三 

有 趣 的 是 ， 色 层 突 触 会 以 很 高 的 速度 失 活 。 对 于 来 目 和 输入 的 放电 ， 
皮层 中 典型 的 兴奋 性 突 触 都 有 90% 的 失败 率 。 三 这 就 像 一 个 棒球 队 ， 几 
乎 所 有 球员 的 击 球 成 功率 都 是 0.1。 大 脑 是 如 何 利用 这 种 不 可 靠 的 皮层 
突 触 来 实现 可 笔 的 功能 呢 ? 当 每 个 神经 元 上 存在 数 干 个 概率 突 触 时 ， 其 
活动 总 和 的 多 样 性 相对 较 低 ，' 三 这 意味 着 其 性 能 可 能 不 会 像 你 想象 的 那 
样 大 规模 地 下 降 。 学 习 过 程 中 在 突 触 层面 发 生 失 活 的 好 处 ， 可 能 远大 于 
准确 性 降低 的 代价 。 而 且 由 于 突 触 需要 消耗 大 量 的 能 量 ， 失 活 也 可 以 节 
省 能 量 。 最 后 ， 皮 层 使 用 概率 来 计算 可 能 的 ， 而 非 确 定 的 结果 ， 所 以 使 
用 概率 性 分 量 是 表示 概率 的 有 效 方式 。 


虽然 皮层 突 触 也 许 并 不 可 靠 ， 但 是 它们 的 强度 却 惊人 的 精确 。 皮 层 
突 触 的 大 小 及 其 相应 的 强度 在 100 倍 的 范围 内 变化 ， 蛙 一 突 触 的 强度 可 
以 在 此 范围 内 增加 或 减少 。 与 得 克 萨 斯 大 学 奥 斯 河 分校 的 神经 解剖 学 家 
克 里 斯 汀 :哈里 斯 (Kristen Harris) 合作 ， 我 的 实验 室 最 近 重 建 了 一 小 块 
大 鼠 的 海马 体 ， 这 是 大 脑 中 形成 长 期 记忆 所 需 的 区 域 ， 其 中 包含 450 个 
突 触 。 大 多 数 轴 突 会 在 树 突 的 分 文 上 形成 单个 突 触 ， 但 在 少数 情况 下 ， 
一 个 轴 突 的 两 个 突 触 会 接触 到 相同 的 树 突 。 令 人 惊讶 的 是 ， 它 们 的 尺寸 
几乎 相同 ， 之 前 的 研究 经 验 告诉 我 们 ， 这 意味 着 它们 也 具有 相同 的 强 


度 。 人 们 已 经 了 解 了 导致 这 些 突 触 强 度 帮 生变 化 的 条 件 。 这 些 突 触 的 强 
度 变 化 取决 于 输入 尖峰 的 历史 和 树 突 啊 应 的 电 活 动 ， 对 于 来 自 同 一 个 树 
突 上 相同 轴 突 的 一 对 突 触 来 说 也 是 如 此 。 根 据 这 些 观察 ， 我 们 推 师 信息 
存储 在 突 触 强度 中 的 精度 很 高 ， 足 以 存储 人 至少 5 位 信息 。 三 深度 循环 网 


络 的 学 习 算 法 只 需要 5 位 束 能 实现 融 水 平 的 性 能 ， 这 很 可 能 不 是 巧合 。 


| > 十 上 


大 脑 网 络 的 维度 非常 高 ， 我 们 对 其 甚至 没有 很 好 的 估计 。 大 脑 皮 层 
中 的 突 触 总 数 约 为 100 万 亿 ， 几 乎 是 个 天 文 数 字 。 人 类 的 寿命 不 过 几 十 
亿 秒 。 以 这 样 的 速度 ， 你 可 以 为 你 生活 中 的 每 一 秒 贡 献 出 10 万 个 突 触 。 
在 实际 情况 中 ， 神 经 元 往往 具有 聚集 的 局 部 连接 ， 例 如 在 由 10 亿 个 突 触 
连接 的 由 10 万 个 神经 元 组 成 的 皮层 柱 内 。 虽 然 这 仍然 是 一 个 很 大 的 数 
字 ， 但 还 远 算 不 上 天 文 数字 。 长 距离 连接 比 本 地 连接 要 少 得 多 ， 因 为 神 
经 连接 会 占用 宝贵 的 空间 ， 并 且 会 消耗 大 量 能 量 。 

代表 皮层 中 一 个 对 象 或 概念 的 神经 元 的 数量 ， 是 一 个 重要 的 数字 。 
粗略 估计 一 下 ， 需 要 的 突 触 数量 约 为 10 亿 ， 需 要 的 神经 元 数量 约 为 10 
万 ， 分 布 在 10 个 皮层 区 域 中 。 三 也 就 是 说 ， 约 10 万 个 独立 的 、 互 不 干扰 
的 对 象 类 别 和 概念 存储 在 100 万 亿 个 突 触 中 。 在 实际 情况 中 ， 代 表 相 似 
对 象 的 神经 元 群 是 重合 的 ， 这 可 以 大 大 增加 皮层 表达 相关 对 象 和 对 象 之 
间 关 系 的 能 力 。 这 种 能 力 在 人 类 中 比 在 其 他 哺乳 动物 中 要 强大 得 多 ， 因 
为 人 类 大 脑 中 的 联合 皮层 Cassociative ”cortex， 在 感官 和 运动 层级 的 上 
方 ) 在 进化 过 程 中 发 生 了 显著 的 扩张 。 

高 维 空间 中 概率 分 布 的 研究 在 20 世 纪 80 年 代 还 是 一 个 相对 而 言 未 被 
开发 的 统计 领域 。 有 几 位 统计 学 家 研究 了 在 探究 高 维 空间 和 高 维 数据 集 
时 出 现 的 统计 问题 ， 例 如 斯 坦 福 大 学 的 里 奥 : 布 羔 曼 (Leo Breiman) ， 
他 是 NIPS 社 区 中 的 一 员 。 来 自 该 社区 的 一 些 人 ， 例 如 加 州 大 学 伯克利 分 
校 的 迈克 尔 :乔丹 (Michael Jordan) 也 在 统计 系 任 职 。 然 而 大 多 数 情 况 
下 ， 大 数据 时 代 的 机 器 学 习 已 经 发 展 到 了 令 统 计 学 家 望 而 生 蔷 的 程度 。 
但 仅仅 通过 训练 大 型 网 络 来 做 出 令 人 惊叹 的 事情 是 不 够 的 ， 我 们 也 需要 


分 析 和 理解 它们 是 如 何 做 到 的 。 物 理学 家 在 这 方面 占据 了 领先 地 位 ， 由 
于 神经 元 和 突 触 的 数量 越 来 越 大 ， 他 们 利用 了 统计 物理 学 的 方法 来 分 析 
学 习 的 特性 。 

2017 年 在 长 滩 举 办 的 NIPS 会 议 上 ,“ 时 间 考 验 奖 ”(the Test of Time 
award) 被 授予 了 加 州 大 学 伯克利 分 校 的 本 杰 明 : 雷 希 特 Benjamin 
Recht) 和 谷歌 的 阿里 - 拉 希 米 CAli Rahimi) 在 2007 年 联名 发 表 的 NIPS 
论文 。 三 该 论文 表明 ， 随 机 特征 可 以 有 效 地 提高 具有 一 层 学 习 权 重 网络 
的 性 能 的 有 效 方法 ， 这 是 弗兰克 : 罗 森 布 拉 特 在 1960 年 通过 感知 器 的 试 
验 了 解 到 的 。 拉 希 米 在 获奖 后 的 演讲 中 发 出 了 对 机 器 学 习 严 谨 性 的 强烈 
呼吁 ， 他 感叹 深度 学 习 缺 乏 严 说 性 ， 并 嘲讽 它 为 “炼金 术 ”。 我 当时 正 坐 
EPOKE xmi (Yann LeCun) 旁边 。 上 听 完 演讲 ， 杨 立 昆 在 一 
篇 博客 中 写 道 : “批评 整个 团体 〈 还 是 那个 领域 中 非常 成 功 的 团体 ) 是 
在 钻研 ”“ 炼 金 术 :， 仅 仅 因 为 我 们 目前 的 理论 工具 还 没有 赶 上 我 们 的 实 
践 ， 这 是 十 分 危险 的 做 法 。 为 什么 危险 呢 ? 正 是 这 种 态度 ， 导 致 机 器 学 
习 社 区 将 神经 网 络 的 研究 搁置 了 超过 10 年 ， 尽 管 有 充分 的 经 验证 据 表 
明 ， 它 们 在 许多 情况 下 运行 良好 。” 三 这 是 一 次 经 典 的 遵 遇 和 整洁 的 科 
学 方法 之 间 的 混战 。 想 要 取得 进展 ， 这 两 个 都 是 不 可 或 缺 的 。 


神经 网 络 的 局 限 性 


虽然 神经 网 络 可 以 给 出 一 个 问题 的 正确 答案 ， 但 目前 还 没有 办 法 解 
释 它 们 是 如 何 得 到 这 个 答案 的 。 例 如 ， 假 设 一 名 感到 胸部 刺 痛 的 女性 患 
者 来 到 急诊 室 。 这 是 心肌 梗死 的 一 种 症状 ， 需 要 立即 进行 干预 ， 还 是 仅 
仅 是 由 一 种 严重 的 消化 不 恨 引 起 的 呢 ? 训练 有 素 的 神经 网 络 可 能 会 比 医 
生 做 出 更 准确 的 诊断 ， 但 如 果 不 清楚 网 络 为 何 做 出 这 样 的 决定 ， 我 们 就 
有 理由 不 信任 它 。 医 生 和 算法 一 样 ， 也 要 接受 一 系列 测试 和 决 集 皮 的 指 
导 ， 通 过 常规 案例 进行 培训 。 但 问题 在 于 ， 有 些 罕见 的 情况 并 不 在 他 们 
算法 履 兰 的 范围 之 内 ， 而 神经 网 络 则 经 历 过 更 多 案例 的 训练 ， 远 远 超 过 


一 般 医生 在 一 生 中 会 经 历 的 ， 网 络 可 能 会 很 好 地 捕捉 到 这 些 罕 见 病例 。 
但 是 ， 你 会 相信 无 法 解释 其 理由 ， 但 从 统计 上 来 说 诊断 能 力 更 强 的 神经 
网 络 ， 而 不 去 相信 看 似 有 赁 有 据 的 医生 吗 ? 事实 上 ， 那 些 能 够 精确 诊断 
罕见 病例 的 医生 都 有 看 丰富 的 经 验 ， 并 且 大 多 数 使 用 了 模式 识别 而 不 是 
算法 。 三 对 于 各 个 领域 的 最 高 级 别 专家 来 说 ， 情 况 可 能 都 是 如 此 。 

正如 可 以 训练 网 络 来 提供 专业 的 诊断 ， 是 否 有 可 能 把 其 背后 的 解释 
作为 训练 集 的 一 部 分 ， 来 训练 网 络 对 其 行为 进行 解释 呢 ? 这 样 一 来 也 许 
还 可 以 帮助 改善 诊断 。 这 一 建议 是 存在 问题 的 ， 原 因 是 医生 给 出 的 许多 
解释 都 是 片面 的 、 过 度 简化 的 ， 或 错误 的 。 每 一 代 医 疗 实 践 与 前 一 代 相 
比 都 发 生 了 巨大 的 变化 ， 因 为 人 体 的 复杂 性 大 大 超出 了 我 们 目前 的 理解 
能 力 。 如 果 我 们 可 以 通过 分 析 网 络 模型 的 内 部 状态 来 提取 因果 解释 ， 整 
可 能 会 产生 能 够 推动 医学 发 展 的 新 的 见解 和 假设 。 

神经 网 络 是 一 个 黑 盒 子 ， 其 理论 尚 无 法 被 理解 ， 这 个 陈述 对 大 脑 也 
成 立 。 事 实 上 ， 在 给 定 相 同 数据 的 情况 下 ， 不 同 的 个 体 做 出 的 决定 也 会 
干 差 万 别 。 我 们 的 确 还 不 消 楚 大 脑 是 如 何 从 经 验 中 得 出 推论 的 。 束 如 第 
三 章 所 讨论 的 ， 结 论 并 不 总 是 基于 逻辑 ， 其 中 还 存在 认 知 偏差 。 三 此 
外 ， 我 们 所 接受 的 解释 ， 往 往 仅 仅 是 合理 的 解释 或 似是而非 的 故事 。 我 
们 并 不 能 排除 某 一 天 某 个 非常 大 的 生成 网 络 会 突然 开始 说 话 的 可 能 性 ， 
到 时 我 们 就 可 以 回 它 寻求 解释 了 。 我 们 是 否 应 该 期 待 ， 能 从 这 样 的 网 络 
获得 比 从 人 类 那里 得 到 的 更 好 的 故事 和 合理 的 解释 呢 ? 回想 一 下 ， 意 识 
并 不 涉及 大 脑 的 内 部 运作 。 深 度 学 习 网 络 通常 会 按照 排名 次 序 提供 几 个 
而 非 一 个 主要 的 预测 ， 这 为 我 们 提供 了 关于 结论 可 信和 度 的 一 些 信息 。 监 
督 神 经 网 络 只 能 解决 用 来 训练 网 络 的 数据 范围 内 的 问题 。 如 果 接 受过 类 
似 案 例 或 样本 的 培训 ， 神 经 网 络 应 该 在 新 案例 做 出 一 个 很 好 的 插值 。 但 
是 ， 如 果 一 项 新 的 输入 超出 了 训练 数据 的 范围 ， 进 行 外 推 
(extrapolation) 操作 就 比较 危险 了 。 这 应 该 不 会 令 人 感到 惊讶 ， 因 为 
同样 的 限制 也 适用 于 人 类 ; 我 们 不 应 该 期 望 一 个 物理 领域 的 专家 在 政治 
问题 上 ， 甚 至 是 物理 学 中 他 专长 之 外 的 领域 ， 提 供 良 好 的 建议 。 但 是 ， 


只 要 数据 集 足 够 大 ， 能 够 涵 兰 全 部 的 潜在 输入 ， 网 络 对 新 输入 进行 的 泛 
化 操作 ， 结 果 应 该 也 是 不 错 的 。 在 实践 中 ， 人 们 倾向 于 使 用 类 比 ， 从 比 
较 熟 悉 的 领域 推广 到 新 的 领域 ， 但 如 果 两 个 领域 存在 本 质 上 的 不 同 ， 这 
样 的 类 比 就 是 错误 的 。 

所 有 对 输入 进行 分 类 的 神经 网 络 都 存在 偶 倚 。 首 先 ， 对 分 类 类 别 的 
选择 束 引 入 了 偏 位 ， 这 种 偏 们 反映 了 我 们 如 何 对 世界 进行 分 解 。 例 如 ， 
训练 一 个 网 络 来 检测 草坪 上 的 杂 草 是 非常 实用 的 。 但 是 怎么 定义 杂 草 
Ne? 一 个 人 认为 是 杂 草 ， 在 尺 一 个 人 看 来 可 能 是 野花 。 分 类 是 一 个 反应 
文化 偏见 的 更 宽泛 的 问题 。 用 于 训练 网 络 的 数据 集 加 剧 了 这 种 不 确定 
性 。 例 如 ， 有 许多 公司 为 执法 机 构 提 供 基于 面部 识别 的 犯罪 分 子 识别 系 
统 。 黑 人 面部 识别 中 出 现 的 假 阳性 误 判 比 白人 面孔 多 ， 因 为 用 于 训练 网 
络 的 数据 库 中 有 更 多 的 白人 人 面孔， 你 拥有 的 数据 越 多 ， 准 确 紊 束 越 蜗 。 
三 数据 库 偏差 可 以 通过 重新 平衡 数据 来 纠正 ， 但 不 可 避免 地 会 存在 隐藏 
的 偶 傈 ， 这 取决 于 数据 的 来 源 以 及 被 用 来 做 出 什么 样 的 决定 。 三 


另 一 个 反对 依赖 神经 网 络 的 理由 是 ， 人 们 可 能 会 以 公平 为 代价 来 优 
化 利润 。 例 如 ， 如 果 未 被 充分 代表 的 少数 群体 中 的 人 去 申请 住房 抵押 贷 
款 ， 而 已 接受 过 数 百 万 次 申请 培训 的 神经 网 络 拒绝 了 该 申请 。 对 网 络 的 
答 入 包括 当前 地 址 ， 以 及 与 少数 群体 高 度 相关 的 其 他 信息 。 因 此 ， 即 使 
有 反对 明确 歧视 少数 群体 的 法 律 ， 该 网 络 也 可 能 会 利用 这 些 信息 来 暑 中 
歧视 他 们 。 这 里 的 问题 不 在 于 神经 网 络 ， 而 在 于 我 们 让 它 优化 的 代价 函 
数 。 如 果 利 润 是 唯一 的 目标 ， 网 络 就 会 使 用 被 提供 的 任何 信息 来 最 大 化 
利润 。 解 决 这 个 问题 的 方法 是 将 公平 性 作为 代价 函数 中 的 一 个 参数 。 虽 
然 最 佳 解决 方案 是 在 利润 和 公平 之 间 找到 一 种 明智 的 平衡 ， 但 必须 在 代 
价 函 数 中 明确 这 种 平衡 ， 这 就 需要 有 人 决定 如 何 权衡 每 个 目标 的 重要 
性 。 那 些 人 文 和 社会 科学 领域 的 伦理 观点 应 该 为 这 些 权衡 提供 指导 。 但 
我 们 必须 时 刻 牢 记 ， 选 择 一 个 看 似 公平 的 代价 函数 可 能 会 产生 意 想不到 
的 后 果 。 D 

伊 隆 . 马 斯 克 、 斯 带 芬 .霍金 以 及 立法 者 和 研究 人 员 ， 都 曾 呼吁 对 人 


工 智 能 进行 规范 。2015 年 ，3722 位 人 工 智能 和 机 器 人 研究 人 员 共 同 签署 
了 一 封 公开 信 ， 呼 吁 禁止 使 用 自动 武器 : 


综 上 所 述 ， 我 们 认为 人 工 智 能 在 很 多 方面 都 具有 造福 人 类 的 巨 
大 潜力 ， 这 也 应 该 是 该 领域 的 目标 。 但 开始 人 工 智能 军备 竞赛 不 是 
一 个 好 主意 ， 应 该 通过 法 令 禁 止 超出 人 类 合理 控制 范围 的 自动 攻击 
MKB VE 


好 的 ， 但 也 可 能 适得其反 。 并 非 所 有 国家 都 会 遵循 
Nate 
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人 工 智 能 是 未 来 ， 不 仅 对 俄罗斯 来 说 是 这 样 ， 对 全 人 类 也 是 一 
样 。 它 带 来 了 巨大 的 机 会 ， 但 也 会 带 来 难以 预测 的 威胁 。 无 论 谁 成 
为 这 个 领域 的 领导 者 ， 都 将 统治 全 世界 。 三 


全 面 茶 令 的 问题 在 于 人 工 智能 不 是 一 个 孤立 的 领域 ， 而 是 一 个 拥有 
许多 不 同 工 具 和 应 用 的 领域 ， 其 中 每 一 样 都 会 产生 不 同 的 结果 。 例 如 ， 
信用 评分 的 自动 化 是 机 器 学 习 在 20 世 纪 80 年 代 的 早期 应 用 。 有 人 担心 ， 
如 果 他 们 碰巧 住 在 声誉 不 好 的 社区 内 ， 束 会 得 到 不 公正 的 评分 。 这 惑 众 
生出 了 对 用 于 计算 分 数 的 信息 进行 限制 的 法 律 规定 ， 并 要 求 公司 通知 个 
人 如 何 提高 分 数 。 eee) RUM 题 ， 最 好 根据 有 具体 情况 进行 
处 理 ， 而 不 是 言 目 茶 止 相关 研 宫 。 


1987 年 学 术 休 假期 间 ， 我 拜访 了 索 尔 元 研究 所 的 弗朗西斯 :元 里 
殉 ， 那 会 儿 我 在 加 州 理 工学 院 担任 神经 生物 学 Cornelis ”Wiersma 客 座 教 
授 。 A 上 实力 雄厚 的 视觉 研究 小 组 ， 这 是 我 特别 
感 兴趣 的 研究 题目 之 一 。 我 在 教员 午餐 时 间 演 示 了 我 的 话语 网 络 样 带 ， 
引发 了 热烈 的 讨论 。 我 在 1989 年 搬 到 拉 人 三 亚 ， 这 标志 着 我 从 约 畏 :和 霍 普 
金 斯 大 学 的 初级 教员 转变 为 索 尔 元 研究 所 的 高 级 教员 ， 真 令 人 兴奋 。 几 


乎 在 一 夜 之 间 ， 很 多 机 会 都 问 我 履 开 了 怀抱 ， 其 中 包括 霍华德 : 体 斯 医 
学 研究 所 (Howard Hughes Medical Institute) 的 一 项 任命 ， 该 机 构 为 我 
26 年 的 研究 提供 了 慷慨 的 文 持 。 


1989 年 加 入 加 州 大 学 圣 友 蕊 分校 时 ， 我 遗憾 地 发 现 ， 那 位 教授 我 们 
反 向 传播 理论 的 大 卫 . 鲁 姆 哈 特 已 经 去 了 斯 坦 福 大 学 ， 在 那 之 后 我 很 少 
有 机 会 再 见 到 他 。 多 年 来 ， 我 注意 到 大 卫 的 行为 方式 发 生 了 令 人 不 安 的 
ARA. WES, ME BCID DT E A AILS Jia A ——€§_ 患者 大 脑 的 额 叶 皮 层 中 的 神 
经 元 会 逐渐 流失 ， 对 他 的 性 格 、 行 为 和 语言 造成 影响 。2011 年 ， 鲁 姆 哈 
特 在 他 68 岁 时 去 世 了 ， 那 时 他 已 经 认 不 出 家 人 或 朋友 了 。 


1. 加 州 大 学 圣迭戈 分 校 的 认 知 科学 系 ， 由 人 类 和 人 体 工 程 学 专家 唐 : 诺 曼 (Don 
Norman) 创立 ， 拥 有 一 支 不 拘 一 格 的 教师 队伍 。 


2, 反 向 传播 学 习 算法 中 使 用 的 数学 已 经 存在 了 一 段 时 间 ， 可 以 退 溯 到 20 世 纪 60 年 代 的 
控制 理论 文献 ， 但 是 其 最 大 的 影响 体现 于 在 多 层 感知 器 中 的 应 用 。 参 阅 Arthur E. Bryson 
and Yu-Chi Ho, Applied Optimal Control: Optimization,Estimation, and Control(University of 
Michigan, Blaisdell, 1969). 


3. ZI 乔丹 (Michael I. Jordan) 具有 权威 性 的 关于 现代 随机 梯度 下 降 的 演 
Vf: “On Gradient-Based Optimization: Accelerated, Distributed,Asynchronous, and 


Stochastic,” May 2, 2017, Simons Institute for the Theory of Computing, UC, Berkeley. 
https://simons.berkeley.edu/talks/michae-ljordan-2017-5-2/. 
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到 了 2000 年 ， 自 20 世 纪 80 年 代 兴 起 的 神经 网 络 热潮 已 经 退去 ， 神 经 
网 络 再 次 成 为 常规 科学 。 托 马 斯 : 库 因 “Thomas Kuhn) 曾 将 科学 革命 之 
间 的 时 间 间 隔 描 述 为 ， 科 学 家 在 一 个 已 经 确定 的 范式 或 解释 框 染 内 进行 
理论 推定 、 观 察 和 试验 的 常规 工作 阶段 。 三 1987 年 ， 杰 弗 里 . 注 顿 去 了 
多 伦 多 大 学 ， 并 继续 着 渐进 式 改 进 ， 虽 然 这 些 改进 都 没有 像 曾经 的 玻 尔 
兹 曼 机 那样 展现 出 魔力 。 六 顿 在 21 志 纪 头 十 年 成 为 加 拿 大 高 等 研究 院 
(Canadian Institute for Advanced Research， 简 称 CIFAR) 神经 计算 和 自 
适应 感知 项 目 (Neural Computation and Adaptive Perception， 人 简称 
NCAP) 的 带头 人 。 该 项 目 由 来 自 加 拿 大 和 其 他 国家 的 约 25 位 研究 人 员 
组 成 ， 专 注 于 解决 机 占 学 习 的 难题 。 我 是 由 杨 立 昆 担任 主席 的 NCAP 顾 
问 委 员 会 的 成 员 ， 会 在 每 年 NIPS 会 议 召 开 之 前 参加 该 项 目的 年 会 。 神 经 
网 络 的 先驱 们 在 绥 慢 而 稳定 的 过 程 中 探索 了 机 器 学 习 的 许多 新 策略 。 虽 
然 他 们 的 网 络 有 许多 有 价值 的 应 用 ， 但 却 一 直 没 有 满足 20 世 纪 80 年 代 对 
该 领域 抱 有 的 很 高 的 期 望 。 不 过 这 并 没有 动摇 先驱 者 们 的 信念 。 回 想起 
来 ， 他 们 一 直 是 在 为 发 跃 性 的 突破 黄 定 基础 。 


机 咽 学 习 的 稳步 发 展 


NIPS 会 议 是 20 世 纪 80 年 代 神 经 网 络 的 孵化 器 ， 为 其 他 可 处 理 大 型 高 
维 数据 集 的 算法 打开 了 大 门 。 弗 拉 基 米尔 : 瓦 普 尼 克 的 支持 向 量 机 于 
1995 年 引发 了 爱 动 ， 为 20 世 纪 60 年 代 就 被 遗弃 的 感知 髓 网 络 开辟 了 一 个 


新 篇 蔓 。 使 文 持 癌 量 机 成 为 功能 强大 的 分 类 器 ， 并 出 现在 每 个 神经 网 络 
工作 者 工具 包 中 的 ， 是 “内 核 技 巧 ”(kernel trick) ， 这 是 一 种 数学 转 
换 ， 相 当 于 将 数据 从 其 采样 空间 重新 映射 到 使 其 更 容易 航 分 离 的 超 空 
间 。 托 马 索 : 波 吉 奥 开发 了 一 种 名 为 “HMAX” 的 分 级 网 络 ， 可 以 对 有 限 
数量 的 对 象 进行 分 类 。 三 这 表明 ， 网 络 的 性 能 会 随 着 其 深度 的 增加 而 提 
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在 21 世 纪 的 头 几 年 里 ， 图 形 模型 被 开发 出 来 ， 并 与 被 称 为 “ 贝 叶 斯 
p24” (Bayes networks) 的 丰富 的 概率 模型 相 结 合 ， 后 者 是 基于 18 世 纪 
英国 数学 家 托马斯 : 贝 叶 斯 (Thomas Bayes) 提出 的 一 个 定理 ， 该 定理 
允许 使 用 新 的 证 据 来 更 新 先前 的 信念 。 加 州 大 学 洛杉矶 分 校 的 朱 迪 亚 : 
珀 尔 ， 在 早 些 时 候 曾 将 基于 贝 叶 斯 分 析 的 “信念 网 络 ”(belief networks? 
三 引入 人 工 智 能 ， 通 过 开发 能 够 利用 数据 在 网 络 中 学 习 概 率 的 方法 ， 对 
贝 叶 斯 分 析 进 行 了 加 强 和 扩展 。 这 些 网 络 以 及 其 他 网 络 的 算法 为 机 器 学 
习 研 究 人 员 打 造 出 了 强大 的 工具 。 


随 着 计算 机 的 处 理 能 力 继 续 呈 指数 增长 ， 训 练 更 大 规模 的 网 络 成 为 
可 能 。 大 家 曾 普 裔 认为 ， 具 有 更 多 隐藏 单元 、 更 宽 的 神经 网 络 ， 比 具有 
更 多 层 数 、 更 深 的 网 络 的 效果 更 好 ， 但 是 对 于 逐 层 训练 的 网 络 来 说 并 非 
Quit, FF FRAP REM YA H (the vanishing error gradient 
problem) 被 发 现 减 慢 了 输入 层 附 近 的 学 习 速 度 。 三 然而 ， 当 这 个 问题 
最 终 被 克服 的 时 候 ， 我 们 已 经 可 以 对 深度 反 同 传播 网 络 进行 训练 了 ， 而 
且 该 网 络 在 基准 测试 中 表现 得 更 好 。 三 随 着 深度 反 辐 传播 网 络 开 始 在 计 
算 机 视觉 领域 挑战 传统 方法 ，2012 年 的 NIPS 大 会 上 出 现 了 这 样 一 句 
话 : “神经 信息 处 理 系 统 ” 里 的 “神经 ”又 回来 了 。 


在 20 世 纪 的 最 后 10 年 以 及 21 世 纪 前 10 年 的 计算 机 视觉 领域 ， 在 识别 
图 像 中 的 对 象 方面 取得 的 稳步 进展 ， 使 得 基准 测试 (用 于 比较 不 同方 
法 ) 的 性 能 每 年 能 提高 百 分 之 零 点 几 。 方 法 改进 的 速度 十 分 缓慢 ， 这 是 
因为 每 个 新 类 别 的 对 象 ， 都 需要 有 关 专 家 对 能 够 将 它们 与 其 他 对 象 区 分 
开 来 所 需 的 与 姿态 无 关 的 特征 进行 甄别 。 随 后 ， 在 2012 年 ， 杰 弗 里 . 辛 


顿 和 他 的 两 名 学 生 艾 力克 斯 : 死 里 泽 夫 斯 基 CAlex Krizhevsky) FRAN aL 
: 苏 特 斯 科 娃 同 NIPS 会 议 提交 了 一 篇 论文 ， 关 于 使 用 深度 学 习 训练 
AlexNet 识 别 图 像 中 的 对 象 ，AlexNet 是 本 章 要 重点 讨论 的 深度 卷 积 区 
络 。 三 以 拥有 22 000 多 个 类 别 ， 超 过 1 500 万 个 标记 过 的 高 分 辨 率 图 像 的 
ImageNet 数 据 库 作为 基准 ，AlexNet 史 无 前 例 地 将 识别 错误 率 降低 到 了 
18%. 三 这 次 性 能 上 的 飞跃 在 计算 机 视觉 社区 中 掀起 了 一 股 冲击 波 ， 加 
速 推动 了 更 大 规模 网 络 的 发 展 ， 现 在 这 些 网 络 几 乎 已经 达到 了 人 类 的 水 
平 。 到 2015 年 ，ImageNet 数 据 库 的 错误 率 已 降 至 3.6%。 三 当时 还 在 微 
软 研究 院 的 何 恺 明 及 其 同事 使 用 的 低 错 误 率 深度 学 习 网 络 ， 在 许多 方面 
都 与 视觉 皮层 十 分 相似 ;， 这 类 网 络 由 杨 立 昆 最 早 提 出 ， 并 最 初 把 它 命 名 
为 “Le Net". 
20 世 纪 80 年 代 ， 杰 弗 里 : 辛 顿 和 我 第 一 次 见 到 这 个 法 国学 生 杨 立 昆 

〈 见 图 9-1， 右 ) 。 他 9 岁 时 ， 就 深 受 1968 年 史诗 级 的 科 约 电影 《2001 太 
空 漫游 》 (2001: A Space Odyssey) 中 的 任务 计算 机 HAL 9000 的 司 发 ， 
想 要 开 及 人 工 智能 。 他 曾 独立 发 明了 上 反 辐 传播 误差 算法 的 一 种 版 本 ， 并 
记录 在 他 1987 年 的 博士 论文 中 ， 三 之 后 他 莽 搬 到 多 伦 多 ， 加 入 了 杰 弗 里 
的 团队 。 后 来 ， 他 转 去 了 美国 电话 电报 公司 (AT&T) 在 新 泽 西 州 霍 姆 
德尔 (Holmdel) 的 贝尔 实验 室 ， 在 那里 他 创造 了 一 个 可 以 读 取 信件 上 
的 手写 邮政 编码 的 网 络 ， 采 用 修订 的 美国 国家 标准 与 技术 研究 院 
(Modified National Institute of Standards and Technology， 人 简称 MNIST) 
数据 库 作 为 一 种 标记 数据 基准 。 每 天 有 数 百 万 封 信件 需要 递送 到 信箱 
里 ; 而 今天 ， 这 个 过 程 是 完全 自动 化 的 。 同 样 的 技术 也 可 以 用 来 自动 读 
取 ATM 机 上 银行 支票 的 金额 。 有 趣 的 是 ， 最 难 的 部 分 其 实 是 查找 文 票 
上 数字 的 位 置 ， 因 为 每 张 支 昧 都 有 不 同 的 格式 。 早 在 20 世 纪 80 年 代 ， 杨 
芯 昆 加 显露 出 了 证 明 原 理 〈 学 者 们 擅长 的 事情 ) 并 将 之 应 用 在 现实 世界 
中 的 非凡 天 赋 。 后 者 要 求实 际 产品 必须 经 过 严格 的 测试 ， 且 表现 稳健 。 


图 9-1 杰 弗 里 。 辛 顿 和 杨 立 昆 是 深度 学 习 领 域 的 大 师 。 这 张 照片 是 2000 年 左右 在 加 
拿 大 高 等 研究 院 的 神经 计算 和 自 适 应 感知 项 目 会 议 上 拍摄 的 ， 该 项 目 是 深度 学 习 领 
RWE. RARR: JD XE $M. 
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苍 积 网 络 的 渐进 式 改进 


杨 立 昆 在 2003 年 去 了 纽约 大 学 后 ， 仍 继续 开 友 他 的 视觉 网 络 ， 现 在 
被 称 为 卷 积 网 络 (ConvNet) 〈 见 图 9-2) 。 这 个 网 络 的 基本 结构 是 基于 
卷 积 的 ， 卷 积 可 以 被 想象 成 一 个 小 的 滑动 滤波 器 ， 在 滑 过 整 张 图 像 的 过 
程 中 创建 一 个 特征 层 。 例 如 ， 过 滤 喜 可 以 是 一 个 定 癌 边缘 检测 器 ， 就 像 
第 5 革 中 介绍 的 那样 ， 只 有 当 窗 口 对 准 图 像 中 具有 正确 方向 或 纹理 的 对 
象 的 边缘 时 ， 才 会 产生 大 数值 输出 。 尽 管 第 一 层 上 的 窗口 只 是 图 像 中 的 
一 小 块 区 域 ， 但 由 于 可 以 有 多 个 滤波 器 ， 因 此 在 每 个 图 块 中 都 能 得 到 许 
多 特征 信息 。 第 一 层 中 与 图 像 卷 积 的 滤波 问 ， 与 大 卫 ' 休 伯 尔 和 托 斯 坦 ， 
威 泽 尔 在 初级 视觉 皮层 中 发 现 的 “简单 细胞 ”类似 《〈 见 图 9-3) 。 三 更 高 


层次 的 滤波 器 则 对 更 复杂 的 特征 做 出 响应 。 三 在 卷 积 网 络 的 早期 版 本 
中 ， 每 个 滤 流 器 的 输出 都 要 通过 一 个 非 线性 的 Sigmoid 函 数 《〈 输 出 从 0 平 
稳 地 增加 到 1) ， 这 样 可 以 抑制 弱 激 活 单元 的 输出 《见方 框 7.2 中 的 
Sigmoid 20) 。 第 二 层 接 收 来 和 目 第 一 层 的 输入 ， 第 二 层 的 窗口 畴 凋 了 
更 大 的 视野 区 域 ， 这 样 经 过 多 层 之 后 ， 就 会 存在 一 些 能 接收 整个 图 像 输 
入 的 单元 。 这 个 最 顶层 就 类 似 于 视觉 层级 的 顶层 ， 在 灵 长 类 动物 中 被 称 
N FWE”, HERRAR ENOM. RE, MRAR 
元 被 送 入 分 类 层 ， 与 其 中 的 所 有 分 类 单元 连接 ， 再 采用 反问 传播 误差 的 
方式 训练 整个 网 络 ， 对 图 像 中 的 对 象 进行 分 类 。 
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图 9-2 视觉 皮层 与 卷 积 网 络 在 图 像 对 象 识 别 上 的 比较 。 CER (a, b) 视觉 皮层 
中 的 层级 结构 ， 从 视网膜 输入 到 初级 视觉 皮层 (V1) ， 经 过 丘脑 (RGC, LGN) 到 下 
met RA (PIT, CIT, AIT) ， 展 示 了 视觉 皮层 区 域 和 卷 积 网 络 中 层次 的 对 应 关系 。 
CFA) (e) 左 侧 图 像 作为 输入 映射 到 第 一 个 卷 积 层 ， 后 者 由 几 个 特征 平面 组 成 ， 
每 个 特征 平面 代表 一 个 滤波 器 ， 类 似 在 视觉 皮层 中 发 现 的 定向 简单 单元 。 这 些 滤波 
器 的 输出 经 过 阔 值 处 理 并 汇集 到 第 一 层 ， 再 进行 归 一 化 处 理 ， 以 便 在 小 块 区 域 中产 
生 不 变 的 响应 ， 类 似 于 视觉 皮层 中 的 复杂 细胞 〈 图 中 方 框 : 线性 一 非 线性 层 中 的 操 
VE) 。 以 上 操作 在 网 络 的 每 个 卷 积 层 上 重复 。 输 出 层 与 来 自 上 一 个 卷 积 层 的 全 部 输 
入 具有 全 面 的 连接 〈 每 个 输出 单元 都 有 上 一 层 全 部 单元 的 输入 ) 。 图 片 来 源 : 
Yamins and DiCarlo, “Using Goal-Driven Deep Learning Models to 
Understand Sensory Cortex” , figure 1. 


图 9-3 卷 积 网 络 第 一 层 的 滤波 器 。 每 个 滤波 器 都 作用 于 视野 中 的 一 小 块 图 像 区 域 。 
顶部 三 排 中 滤波 器 的 优选 刺激 像 视觉 皮层 中 的 简单 细胞 一 样 具 有 定向 性 。 底 部 三 排 
显示 的 优选 刺激 经 过 了 扩展 ， 并 有 具有 复杂 的 形状 。 图 片 来 源 : Krizhevsky, 
Sutskever and Hinton, “ImageNet Classication with Deep Convolutional 
Neural Networks” , figure 3. 


卷 积 网 络 多 年 来 一 直 在 经 历 许 多 渐进 式 改进 。 一 个 重要 的 补充 ， 是 
将 一 个 区 域 上 的 每 个 特征 聚合 起 来 ， 叫 作 “ 池 化 ”(pooling) 。 这 种 操作 
提供 了 一 种 平移 不 变性 (translation invariance) 的 量度 ， 类 似 于 由 体 伯 
尔 和 威 译 尔 在 初级 视觉 度 层 中 发 现 的 复杂 细胞 ， 能 够 通过 一 个 图 块 对 整 
个 视野 中 相同 方向 的 线 做 出 响应 。 另 一 个 有 用 的 操作 是 增益 归 一 化 
(gain normalization) ， 就 是 调整 输入 的 放大 倍数 ， 使 每 个 单元 都 在 其 
操作 范围 内 工作 ， 在 皮层 中 是 通过 反馈 抑制 (feedback inhibition) 实现 
的 。Sigmoid 输 出 函数 也 被 线性 整流 函数 (rectified linear ”units， 简 称 
ReLUs) 取代 。 在 输入 达到 一 个 病 值 之 前 这 些 单 元 的 输出 都 为 零 ， 超 过 
闵 值 之 后 则 输出 和 输入 呈 线 性 增长 。 该 操作 的 优点 在 于 : FRE 
元 被 有 效 地 排除 在 网 络 外 ， 这 更 接近 真实 神经 元 中 国 值 的 作用 。 


卷 积 网 络 的 每 一 个 性 能 的 改进 ， 其 背后 都 有 一 个 工程 师 可 以 理解 的 
计算 理由 。 但 有 了 这 些 变化 ， 它 越 来 越 接 近 20 世 纪 60 年 代 我 们 所 了 解 的 
视觉 皮层 的 体系 结构 ， 尽 管 当时 我 们 只 能 去 猜测 简单 和 复杂 单元 的 功能 
是 什么 ， 或 者 层级 结构 顶部 的 分 布 式 表征 的 存在 意味 着 什么 。 这 说 明了 
生物 学 与 深度 学 习 之 间 存 在 相得益彰 的 共生 关系 的 潜力 。 


AR BEF 2 388 SUE ZR s 


JAIN SE E38 X BERT EUR ER ASEAN MED RAE, [Rl 
时 也 研究 神经 哲学 。 三 知识 最 终 取 决 于 大 脑 如 何 表达 知识 的 说 法 ， 显 然 
没有 人 阻止 哲学 家 认为 知识 是 独立 于 世界 而 存在 的 一 种 东西 ， 用 伊 曼 努 
IK RIE (Immanuel Kant) 的 话 来 说 ， 就 是 “Ding an sich” (WAH) 。 
但 同样 清楚 的 是 ， 如 果 我 们 (和 其 他 动物 一 样 ) 要 在 现实 世界 中 生存 ， 
背景 知识 就 是 必 不 可 少 的 。 经 过 训练 的 多 层 神经 网 络 的 隐藏 单元 之 间 的 
活动 模式 ， 与 被 逐次 记录 下 的 大 量 生 物 神经 之 间 的 活动 模式 存在 显著 的 
相似 性 。 受 到 这 种 相似 性 的 驱动 ， 则 特 里 复 和 我 在 1992 年 编写 《计算 
脑 》 (The Computational Brain) 一 书 ， 为 基于 大 量 神经 元 的 神经 科学 
研究 开发 了 一 个 概念 框架 。"“ (该 书 现在 已 经 出 到 第 二 版 了 ， 如 果 你 想 
更 多 地 了 解 大 脑 式 的 运算 ， 这 会 是 一 本 很 好 的 入 门 参考 。) RATES 
院 的 詹姆斯 :- 狄 卡 罗 (James DiCarlo) 最 近 比 较 了 猴子 视觉 皮层 层级 结 
构 中 不 同 神经 元 和 深度 学 习 神 经 网 络 中 的 单元 ， 训 练 它们 识别 相同 图 片 
中 的 对 象 ， 分 别 观察 它们 的 啊 应 〈 见 网 9-2) 。 三 他 得 出 结论: 深度 学 
习 网 络 中 每 层 神经 元 的 统计 特性 ， 与 皮层 层级 结构 中 神经 元 的 统计 特性 
非常 接近 。 

深度 学 习 网 络 中 的 单元 与 猴子 视觉 度 层 中 神经 元 性 能 存在 相似 性 ， 
但 其 原因 仍然 有 竺 研究， 尤其 是 考虑 到 猴子 的 大 脑 不 太 可 能 使 用 反 回 传 
播 方式 来 进行 学 习 。 反 辐 传 播 需要 将 详细 的 错误 信号 反馈 给 神经 网 络 每 
层 中 的 每 个 神经 元 ， 其 精度 比 生物 神经 网 络 中 己 知 反馈 连接 的 精度 要 高 
得 多 。 但 其 他 学 习 算法 在 生物 学 上 似乎 更 合理 ， 例 如 玻 尔 效 曼 机 学 习 算 
法 ， 该 算法 使 用 了 已 经 在 皮层 中 被 发 现 的 赫 布 突 触 可 塑性 。 这 引出 了 一 
个 有 趣 的 问题 ， 是 否 存 在 一 种 深度 学 习 的 数学 理论 ， 能 够 适用 于 一 大 类 
学 习 算法 (包括 皮层 中 的 那些 ) We? 在 第 7 章 中 ， 我 提 到 了 对 视觉 层级 
结构 的 上 层 分 类 表面 的 分 析 ， 其 决策 表面 比 更 低层 级 的 表面 更 平坦 。 对 
决策 表面 的 几何 分 析 可 能 会 引出 对 深度 学 习 网 络 和 大 脑 更 深入 的 数学 理 
解 。 


深度 学 习 神 经 网 络 的 一 个 优点 是 ， 我 们 可 以 从 网 络 中 的 每 个 单元 提 
取 “ 记 录 ， 并 退 踪 信 息 流 从 一 层 到 为 一 层 的 转变 。 然 后 可 以 将 分 析 这 种 
网 络 的 策略 用 于 分 析 大 脑 中 的 神经 元 。 关 于 技术 的 一 个 奇妙 之 处 在 于 ， 
技术 背后 通常 都 有 一 个 很 好 的 解释 ， 并 且 有 强烈 的 动机 来 得 到 这 种 解 
释 。 第 一 台 蒸 汽 友 动机 是 由 工程 师 根据 他 们 的 直觉 建造 的 ， 解释 友 动机 
如 何 工 作 的 热力 学 理论 随后 出 现 ， 并 且 帮 助 提 升 了 发 动机 的 效率 。 物 理 
学 家 和 数学 家 对 深度 学 习 网 络 的 分 析 也 正在 顺利 进行 着 。 


有 工作 记忆 的 神经 网 络 


和 目 20 世 纪 60 年 代 以 来 ， 神 经 科学 已 经 走 过 了 漫长 的 道路 ， 从 我 们 目 
前 对 大 脑 的 了 解 中 可 以 获得 很 多 东西 。1990 年 ， 帕 特 里 夏 : 高 德 曼 - 拉 奇 
克 (Patricia Goldman-Rakic) 训练 了 一 只 猴子 来 记 住 一 个 地 点 ， 作 为 提 
示 ， 该 地 点 会 短暂 地 被 一 瘟 灯 照 亮 ， 她 还 训练 这 只 猴子 在 一 段 时 间 的 延 
迟 之 后 ， 把 眼睛 移动 到 被 记 住 的 地 点 。 三 在 记录 了 猴子 前 额 叶 皮层 的 活 
动 后 ， 她 在 报告 中 提 到 ， 一 些 最 初 对 提示 做 出 回应 的 神经 元 在 延迟 期 间 
仍然 保持 活跃 状态 。 心 理学 家 把 人 类 的 这 种 活动 称 为 “工作 记忆 ”， 也 正 
因为 有 了 工作 记忆 ， 我 们 在 执行 任务 〈 比 如 拨打 电话 号 码 ) 时 ， 能 够 记 
住 7+2 项 内 容 。 


传统 的 前 馈 网 络 将 输入 传 到 网 络 中 ， 一 次 传播 一 层 网 络 。 结 合 工作 
记忆 ， 可 以 使 后 续 的 输入 与 之 前 的 输入 在 网 络 中 留 下 的 痕迹 进行 交互 。 
例如 ， 把 法 语句 子 翻译 成 英文 时 ， 网 络 中 的 第 一 个 法 语 单词 会 影响 后 续 
英语 单词 的 顺序 。 在 网 络 中 实现 工作 记忆 的 最 简单 方法 ， 是 添加 人 类 皮 
层 中 常见 的 循环 连接 。 神 经 网 络 中 茶 一 层 内 的 循环 连接 和 之 前 那些 层 的 
反馈 连接 ， 使 得 输入 的 时 间 序 列 可 以 在 时 间 上 整合 起 来 。 这 种 网 络 在 20 
世纪 80 年 代 被 探索 并 广泛 应 用 于 语音 识别 。 三 在 实践 中 ， 它 在 具有 短程 
依赖 性 的 输入 方面 效果 很 好 ， 但 当 输 入 之 间 的 时 间 间 隅 很 长 ， 输 入 的 影 
HRANE REER WE EREE 


1997 年 ， 赛 普 : 霍 元 莱特 (Sepp Hochreiter) 和 尤 尔 根 : 施 密 德 胡 博 
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为 “长 短期 记忆 ”(long short-term memory, faj#KLSTM) . 三 默认 情况 
下 ， 长 短期 记忆 会 传递 原始 信息 ， 而 不 会 发 生 衰减 〈 这 就 是 猴子 前 额 叶 
皮层 的 延迟 期 中 发 生 的 事情 ) ， 并 且 它 也 有 一 个 复杂 的 方案 来 决定 如 何 
将 新 的 输入 信息 与 日 信息 整合 。 于 是 ， 远 程 依赖 关系 可 以 被 选择 性 地 保 
留 。 神 经 网 络 中 这 种 工作 记忆 版 本 沉 儿 了 长 达 20 年 之 入 ， 直 到 它 在 深度 
学 习 网 络 中 再 次 被 唤醒 和 实现 。 长 短期 记忆 和 深度 学 习 的 结合 在 许多 依 
赖 输入 输出 序列 的 领域 都 取得 了 令 人 瞩目 的 成 功 ， 例 如 电影 、 音 乐 、 动 
作 和 语言 。 

施 密 德 胡 博 是 位 于 瑞士 南部 提 梁 诺 州 (Ticino〉 曼 诺 小 镇 的 Dalle 
Molle 人 工 智能 研究 所 的 联合 主任 。 该 小 镇 靠近 阿尔 插 斯 山 ， 周 围 有 一 
些 绝 佳 的 徒步 地 点 。 三 神经 网 络 领 域 的 这 位 申 具 创造 性 、 特 立 独 行 
的 “ 罗 德 尼 . 丹 泽 菲 尔 德 尖 三 相信 和 他 的 创造 力 并 没有 得 到 足够 的 赞誉 。 
此 ， 在 花 特 利 尔 举办 的 2015 年 NIPS 会 议 的 一 次 小 组 讨论 会 上 ， 他 再 次 辐 
与 会 人 员 介绍 了 自己 , “我 ， 施 密 德 衣 博 ， 又 回来 了 ”。 而 在 巴塞 罗 那 举 
行 的 2016 年 NIPS 大 会 上 ， 他 因 培 训 宣讲 人 没有 对 上 自己 的 想法 给 予 足 够 的 
关注 ， 而 打 乱 对 方 的 演讲 长 达 5 分 钟 。 

2015 年 ，Kelvin Xu 及 其 同事 在 用 一 个 深度 学 习 网 络 识别 图 像 中 对 象 
的 同时 ， 还 连接 了 一 个 长 短期 记忆 循环 网 络 来 标注 图 片 。 使 用 来 自 深 度 
学 习 网 络 第 一 过 识别 的 场景 中 所 有 对 象 作 为 输入 ， 他 们 训练 长 短期 记忆 
循环 网 络 输出 一 串 英 文 单词 ， 能 够 形容 一 个 标注 中 的 场景 〈 见 图 9- 

4) 。 他 们 还 训练 了 长 短期 记忆 网 络 来 识别 图 像 中 的 位 置 ， 使 其 对 应 于 
标注 中 的 每 个 单词 。 三 该 应 用 令 人 印象 深刻 的 地 方 在 于 ， 长 短期 记忆 网 
络 从 未 被 训练 来 理解 标注 中 句子 的 含义 ， 只 是 根据 图 像 中 的 对 象 及 其 位 
置 输出 一 个 语法 正确 的 单词 串 。 再 加 上 第 8 章 里 早期 的 话语 网 络 示 例 ， 

这 更 加 证 明了 神经 网 络 似乎 对 语言 有 种 亲和力 ， 但 其 中 的 原因 我 们 却 不 
得 而 知 。 通 过 分 析 长 短期 记忆 网 络 也 许 会 引出 一 种 新 的 语言 理论 ， 它 将 


前 明 网 络 的 工作 原理 和 自然 语言 的 性 质 。 


生成 式 对 抗 网 络 


在 第 7 音 中 ， 玻 尔 兹 曼 机 被 当 作 一 个 生成 模型 进行 了 介绍 ， 当 输出 
被 钳 制 到 一 个 它 己 训练 识别 的 类 型 中 ， 并 且 其 活动 模式 问 下 渗透 到 输入 
层 时 ， 束 可 以 产生 新 的 输入 样本 。 伊 恩 . 古 德 费 洛 〈Ian Goodfellow) 、 
ABE KEA (Yoshua Bengio) 和 他 们 在 蒙特 利 尔 大 学 的 同事 们 表 
示 ， 可 以 训练 前 馈 网 络 ， 在 对 抗 的 背景 (adversarial context) 下 生成 更 
好 的 样本 。 三 一 个 生成 卷 积 网 络 可 以 通过 尝试 欺骗 另 一 个 卷 积 神经 网 络 
来 训练 生成 优质 的 图 像样 本 ， 后 者 必须 决定 一 个 输入 的 图 像 是 真实 的 还 
是 虚假 的 。 生 成 网 络 的 输出 被 用 来 作为 一 个 经 过 训练 的 判别 卷 积 网 络 

(discriminative convolutional network) 的 输入 ， 后 者 只 给 出 一 个 单一 的 

输出 : 如 果 输 入 是 真实 图 像 ， 束 返回 1， 人 否则 返回 0。 这 两 个 网 络 会 相互 
竞争 。 生 成 网 络 试图 增加 判别 网 络 的 错误 率 ， 而 判别 网 络 则 试图 降低 上 自 
喘 的 错误 率 。 由 这 两 个 目标 之 间 的 紧张 天 系 产 生 的 图 像 ， 拥 有 令 人 难以 
置信 的 照片 级 的 真实 感 〈 见 图 9-5) 。 三 


1. 输入 图 像 ” 2. 卷 积 特征 提取 3. 注意 力 在 图 像 上 的 ”4. 逐 字 生 成 
RNN 


A bird flying over a body of water 


A woman is throwing a frisbee in a park, A dog is standing on a hardwood floor. 


(一 个 女人 在 公园 里 扔 飞盘 。) (一 只 狗 站 在 地 板 上 。) 


A little girl sitting on a bed with A group of people sitting on a boat 
a teddy bear. in the water, 
(一 个 小 女孩 拿 着 泰 迪 熊 坐 在 床上 。) ( 一群 人 坐 在 船上 ) 


图 9-4 深度 学 习 为 图 片 做 标注 。 顶 部 的 一 组 图 片 说 明了 分 析 照 片 的 步骤 。 

ConvNet (CNN) 在 第 一 步 中 标记 了 照片 中 的 对 象 ， 并 将 其 传递 给 循环 神经 网 络 
CRNN) 。RNN 被 训练 输出 适当 的 英文 单词 串 。 底 部 的 四 组 图 片 则 阐明 了 进一步 细 化 
的 过 程 ， 即 使 用 注意 力 (AEA) 来 表示 照片 中 单词 的 指示 对 象 。 顶 图 来 源 : M d. 


Jordan and T. M. Mitchell, “Machine learning: Trends, Perspectives, and 


Prospects, ” Science349, no. 6245(2015): 255 - 260， 图 2， 底 图 来 源 : Xu et 
al., “Show, Attend and Tell,” 2015, rev. 2016, figure1 and 
3, https: //arxiv. org/pdf/1502. 03044. pdf, Coutesy of Kelvin Xu. 


3e f. THEA RIN ARE STI EMT TARE A ETE. EM 
是 训练 集中 未 标记 图 像 的 泛 化 版 本 。 请 注意 ， 生 成 式 对 抗 网 络 是 无 监督 
的 ， 这 使 得 它们 可 以 使 用 无 限 的 数据 。 这 些 网 络 还 有 许多 其 他 应 用 ， 包 
括 清除 具有 超 高 分 辨 率 的 星系 天 文 图 片 三 中 的 噪声 ， 以 及 学 习 表 达 富 有 
情感 的 言语 。 CM 

通过 慢 慢 地 改变 生成 式 网 络 的 输入 向 量 ， 有 可 能 逐渐 改变 图 像 ， 使 
得 部 件 或 零碎 物品 〈 如 窗户 ) 逐渐 显现 或 变 成 其 他 物体 〈 如 橱柜 ) 。 三 
更 值得 关注 的 是 ， 有 可 能 通过 添加 和 减 去 表示 网 络 状 态 的 回 量 以 获得 图 
像 中 对 象 的 混合 效果 ， 如 图 9-6 所 示 。 这 些 实验 的 意义 在 于 ， 生 成 网 络 
对 图 像 中 空间 的 表征 ， 正 如 我 们 如 何 描述 场景 的 各 个 组 成 部 分 。 这 项 拉 
术 正 在 迅速 发 展 ， 其 下 一 个 前 沿 领 域 是 生成 逼真 的 电影 。 通 过 训练 一 个 
反复 演绎 的 生成 式 对 抗 网 络 ， 与 类 似 玛丽 连 : 梦 露 这 样 的 演员 参 演 的 电 
影 进行 对 比 ， 应 该 有 可 能 创造 出 已 过 世 的 演员 出 演 的 新 作品 。 
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图 9-5 生成 式 对 抗 网 络 (GAN) 。 顶 部 的 示意 图 展示 了 一 个 卷 积 网 络 ， 用 于 生成 一 组 
样本 图 像 ， 经 过 训练 后 可 以 欺骗 判别 卷 积 网 络 。 左 边 的 输入 是 100 维 的 随机 选取 的 连 
续 值 向 量 ， 用 来 生成 不 同 的 图 像 ; 输入 的 向 量 随后 激活 空间 尺度 逐 层 变 大 的 滤波 器 
层 。 下 方 的 图 显示 了 通过 训练 来 自 单 个 类 别 照片 的 生成 式 对 抗 网 络 产生 的 样本 图 
像 。 顶 图 来 源 : A. Radford, L. Metz, and S. Chintala, “Unsupervised 
Representation Learning with Deep Convolutional Generative Adversar ial 
Networks, ”图 1，arXiv:1511. 06434, https://arxiv. org/pdf/1511. 06434. pdf, 
由 Soumiyh Chintala 提 供 ; 底 图 来 源 : A. Nguyen, J. Yosinski, Y. Bengio, 
A.Dosovitskiy, and J. Clune, “Plug & Play Generative Networks: 
Conditional Iterative Generation of Images in Latent Space," figurel, 
https: //arxiv. org/pdf/1612. 00005. pdf, tAhn Nguyen 提 供 。 


戴 着 眼镜 的 男人 BA 


戴 着 眼镜 的 女人 


图 9-6 生成 式 对 抗 网 络 中 的 向 量 算 法 。 用 面部 图 片 训 练 的 生成 式 网 络 的 输入 混合 
后 ， 产 生 了 输出 〈 左 图 ) ， 然 后 通过 添加 或 减 去 选 定 的 输入 向 量 进行 输出 ， 就 创建 
出 了 混合 后 的 图 像 《〈 右 图 ) 。 因 为 混合 是 在 最 高 的 表征 层 完 成 的 ， 所 以 部 位 和 姿 执 
是 无 颖 接合 的 ， 并 不 会 经 过 变形 过 程 中 那样 的 平均 处 理 。 图 像 改编 自 : A. Radford, 
L.Metz, and S. Chintala, “Unsupervised Representation Learning with Deep 
Convolutional Generative Adversarial Networks,” fifigure7, 

arXiv: 1511. 06434, https: //arxiv. org/pdf/1511. 06434/ 。 


这 是 米兰 的 时 装 周 ， 衣 着 光鲜 的 模特 们 带 着 超凡 脱俗 的 表情 在 TIT 台 
上 走秀 〈 见 图 9-7) 。 时 尚 界 正在 经 历 瞳 潮涌 动 : “很 多 工作 正在 消 
k, WAREM REJE (Silvia Venturini Fendi) 在 她 的 时 装 秀 开 
场 前 说 道 ,“ 机 右 人 会 承担 旧 的 工作 ， 但 它们 唯一 无 法 取代 的 就 是 我 们 
的 创造 力 和 思维 。”” 三 现在 想象 一 下 经 过 训练 的 新 一 代 对 抗 网 络 ， 它 们 
可 以 生产 新 款式 和 高 级 时 装 ， 式 样 几乎 无 穷 无 尽 。 时 尚 界 可 能 正 处 于 一 


个 新 时 代 的 边缘 ， 而 许多 其 他 依赖 创意 的 行业 也 面临 着 相同 的 处 境 。 


图 9-7 2018 年 米兰 的 乔治 。 阿 玛 尼 春 夏 男 装 秀 。 


应 对 现实 社会 的 复杂 性 


当前 的 大 多 数学 习 算法 是 在 25 年 前 开发 的 ， 为 什么 它们 需要 那么 长 
的 时 间 才 能 对 现实 世界 产生 影响 呢 ? 20 世 纪 80 年 代 的 研究 人 员 使 用 的 计 
算 机 和 标记 数据 ， 只 能 证 明 玩 具 问 题 的 原理 。 上 尽管 取得 了 一 些 似 乎 鼎 有 
前 景 的 成 果 ， 但 我 们 并 不 知道 网 络 学 习 及 其 性 能 如 何 随 着 单 元 和 连接 数 
量 的 增加 而 增强 ， 以 适应 现实 世界 问题 的 复杂 性 。 人 工 智 能 中 的 大 多 数 
算法 缩放 性 很 差 ， 从 未 跳出 解决 玩具 级 别 问题 的 范畴 。 我 们 现在 知道 ， 
神经 网 络 学 习 的 缩放 性 很 好 ， 随 着 网 络 规模 和 层 数 的 不 断 增 加 ， 其 性 能 
也 在 不 断 增强 。 特 别 是 反 回 传播 报 术 ， 它 的 缩放 性 非 第 好 。 

我 们 应 该 对 此 感到 惊讶 吗 ? 大脑 皮 层 是 哺乳 动物 的 一 项 发 明 ， 在 灵 
长 类 动物 ， 尤 其 是 人 类 中 得 到 了 高 度 发展 。 随 独 它 的 扩展 ， 更 多 的 功能 
慢 慢 出 现 ， 并 且 更 多 层次 被 添加 到 了 关联 区 域 ， 以 实现 更 高 阶 的 表征 。 


很 少 有 复杂 系统 可 以 实现 如 此 高 级 的 缩放 。 互 联网 是 为 数 不 多 的 已 经 被 
扩大 了 100 万 倍 的 工程 系统 之 一 。 一 旦 通信 数据 包 协 议 建立 起 来 ， 互 联 
网 就 会 开始 进化 ， 正 如 DNA 中 的 遗传 密码 使 细胞 演化 成 为 可 能 一 样 。 


使 用 相同 的 一 组 数据 训练 许多 深度 学 习 网 络 ， 会 导致 生成 大 量 不 同 
的 网 络 ， 它 们 都 具有 大 致 相同 的 平均 性 能 水 平 。 我 们 想 知 道 的 是 ， 所 有 
这 些 同等 优秀 的 网 络 有 哪些 共同 之 处 ， 而 对 单个 网 络 进行 分 析 并 不 能 揭 
示 这 一 点 。 理 解 深度 学 习 原 理 的 男 一 种 方法 是 进一步 探索 学 习 算法 的 空 
lA); 我 们 只 在 所 有 学 习 算法 的 空间 中 对 几 个 位 置 进行 了 抽样 尝试 。 从 更 
广泛 的 探索 中 可 能 会 出 现 一 种 学 习 计 算 理 论 ， 该 理论 与 其 他 科学 领域 的 
理论 一 样 深奥 ， 三 可 能 为 从 上 自然界 中 发 现 的 学 习 算 法 提供 更 多 的 解释 。 


蒙特 利 尔 大 学 的 约 书 亚 :本 言 奥 三 〈 见 图 9-8) ， 和 杨 立 昆 一 起 ， 接 
蔡 杰 弗 里 : 辛 顿 ， 成 为 CIFAR 神 经 计算 和 NCAP 项 目的 主任 ， 访 项 目 在 通 
过 十 年 评估 后 更 名 为 “机 器 学 习 和 大 脑 学 习 ” 项 目 (Learning in Machines 
and Brains) 。 约 书 亚 率领 蒙特 利 尔 大 学 的 一 个 团队 ， 致 力 于 应 用 深度 
学 习 来 处 理 自然 语言 ， 这 将 成 为 “机 器 学 习 和 大 脑 学 习 ” 项 目 新 的 研究 重 
点 。 在 十 多 年 的 会 议 中 ， 这 个 由 20 多 名 教师 和 研究 员 组 成 的 小 组 开局 了 
深度 学 习 的 研究 。 过 去 5 年 来 ， 深 度 学 习 在 过 去 难以 解决 的 许多 问题 上 
取得 了 实质 性 进展 ， 这 些 进展 归功 于 小 组 成 员 的 努力 ， 他 们 当然 只 是 一 
个 更 庞大 社区 中 的 一 小 部 分 人 将 在 第 11 章 探讨 )。 


图 9-8 约 书 亚 。 未 吉 奥 是 CIFAR “机 器 学 习 和 大 脑 学 习 ” 项 目的 联合 主任 。 这 位 在 法 
国 出 生 的 加 拿 大 籍 计算 机 科学 家 ， 一 直 是 应 用 深度 学 习 处 理 自然 语言 问题 这 个 领域 
的 领导 者 。 本 弗 里 。 广 顿 、 杨 立 昆 和 约 书 亚 。 本 吉 奥 所 取得 的 进展 ， 为 深度 学 习 的 
RLS The. BRR: 约 书 亚 。 本 吉 奥 。 

尽管 深度 学 习 网 络 的 能 力 已 经 在 许多 应 用 中 得 到 了 证 明 ， 但 如 果 音 
靠 自 身 ， 它 们 在 现实 世界 中 永远 都 无 法 存活 下 来 。 三 它们 受到 了 研究 者 
的 青睐 ， 后 者 为 其 提供 数据 ， 调 整 超 参数 ， 例 如 学 习 速 度 、 层 数 和 每 层 
中 的 单元 数量 ， 以 改善 收敛 效果 ， 还 为 其 提供 了 大 量 计算 资源 。 男 一 方 
面 ， 如 果 没 有 大 脑 和 身体 的 其 他 部 分 提供 支持 和 自主 权 ， 大 脑 皮 层 也 无 
法 在 现实 世界 中 存活 。 在 一 个 不 确定 的 世界 中 ， 这 种 支持 和 自主 权 是 一 
个 比 模式 识别 更 难 解决 的 问题 。 第 10 章 将 会 介绍 一 种 古老 的 学 习 算 法 ， 
它 通过 激励 我 们 寻求 对 自身 有 利 的 经 验 来 帮助 我 们 在 自然 界 中 生存 。 
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10 
奖励 学 习 


中 世纪 流传 下 来 这 样 一 个 故事 : 一 位 统治 者 为 了 感谢 发 明 国际 象棋 
的 人 ， 想 要 奖励 他 一 块 麦田 。 发 明 人 请 求 在 棋盘 的 第 一 格 放 一 粒 麦 子 ， 
第 二 格 放 两 粒 ， 第 三 格 放 四 粒 ， 依 次 类 推 ， 剩 余 每 格 都 放 前 一 格 两 倍 的 
麦子 ， 下 到 放 满 64 格 的 棋盘 。 统 治 者 觉得 这 个 请 求 并 不 过 分 ， 就 同意 
了 。 但 实际 上 ， 要 满足 这 一 请 求 ， 统 治 者 不 仅 要 拿 出 他 王国 里 所 有 的 故 
子 ， 还 要 加 上 全 世界 未 来 几 百 年 的 麦子 产量 才能 凑 够 ， 因 为 最 后 一 格 要 
放 的 麦 粒 数 目 达 到 了 2 (大 约 是 103) . 三 这 被 称 为 “指数 增长 ”。 在 国 
际 象 棋 和 围棋 游戏 中 ， 棋 盘 不 同 布局 状态 的 增长 速度 比 这 个 故事 里 麦子 
数量 增加 的 速度 还 要 快 得 多 。 在 国际 象棋 中 ， 每 一 步 棋 平 均 都 有 35 种 摆 
法 ， 而 在 围棋 中 ， 分 支 系 数 是 250， 这 就 使 得 围棋 的 指数 增长 速度 要 快 
得 多 。 


机 器 如 何 学 会 下 棋 


游戏 的 好 处 就 在 于 ， 其 规则 都 有 明确 的 定义 ， 玩 家 对 棋盘 十 分 熟 
悉 ， 决 策 也 不 像 现实 世界 中 那样 复杂 ， 但 又 不 失 挑 战 性 。1959 年 ， 在 两 
业 数 字 计 算 机 发 展 的 早期 ，IBM 的 机 器 学 习 先 驱 亚 瑟 : 塞 缘 尔 (Arthur 
Samuel) 编写 了 一 个 擅长 玩 国际 跳棋 的 程序 ， 在 宣布 其 诞生 的 当天 ， 
IBM 的 股票 就 获得 了 巨大 的 收益 。 西 洋 跳棋 则 相对 容易 。 塞 纪 尔 的 程序 
利用 了 代价 函数 来 评估 对 局 中 不 同 布 阵 的 优 务 情况 ， 这 一 点 跟 以 前 的 游 
戏 程序 很 相似 。 该 程序 是 在 IBM 第 一 球 真 空 管 商 用 计算 机 IBM 701 上 运 


行 的 ， 它 在 一 个 方面 的 创新 令 人 印象 深刻 : 通过 跟 目 己 对 弈 ， 学 会 了 下 
棋 。 


在 转 到 位 于 纽约 约克 敦 海 茨 的 IBM 托 马 斯 J. KARO ZA, T 
拉 德 ` 特 索 多 在 位 于 伊利 族 伊 大 学 香 槛 分 校 的 复杂 系统 研究 中 心 ， 与 我 
一 起 训练 神经 网 络 玩 西洋 双 陆 棋 ( 见 图 10-1〉。' 己 我们 的 方法 是 ， 使 用 
专家 监督 来 训练 反问 传播 网 络 ， 以 评估 当前 的 布局 和 可 能 的 摆 法 。 这 种 
方法 的 缺陷 在 于 ， 该 程序 永远 比 不 过 专家 ， 而 专家 的 水 平 并 未 达到 世界 
冠军 的 级 别 。 然 而 通过 自我 对 局 ， 网 络 可 能 会 有 更 出 色 的 表现 。 当 时 自 
我 对 局 面临 的 问题 是 ， 在 比赛 结束 时 ， 唯 一 的 学 习 信 号 就 是 启 或 输 。 但 
是 当 一 方 获 胜 时 ， 应 该 归功 于 之 前 在 干 步骤 中 的 哪些 步骤 呢 ? 这 被 称 
为 “时 域 贡献 度 分 配 问 题 ”(temporal credit assignment problem) 。 


图 10-1 西洋 双 陆 棋 棋 板 。 西 洋 双 陆 棋 是 一 种 通过 朝 着 终点 按 步 走 棋 来 分 出 胜 负 的 游 
戏 ， 红 色 棋 子 和 黑色 棋子 的 移动 方向 相反 Gos) 。 图 中 标注 了 游戏 的 起 始 
位 置 。 同 时 掷 出 两 个 奶子 ， 得 到 的 两 个 数字 表示 两 个 棋子 可 以 向 前 移动 的 距离 。 


有 一 种 可 以 解决 这 种 时 域 贡 献 度 分 配 问 题 的 学 习 算 法 ， 古 由 理 得 德 


-peti (Richard Sutton) 于 1988 年 发 明 的 。 三 他 当时 正在 与 他 的 博士 生 
导师 、 马 了 萨 诸 塞 大 学 阿 姆 赫 斯 特 分 校 的 安德鲁 : 巴 托 CAndrew Barto) , 
共同 解决 强化 学 习 领 域 中 的 问题 。 强 化 学 习 (reinforcement learning) 是 
受 动物 实验 中 的 关联 学 习 (associative learning) 所 启发 衍生 出 的 一 个 机 
器 学 习 研 究 分 支 领域 ( 见 图 10-2) 。 深 度 学 习 的 唯一 工作 是 将 输入 转换 
为 输出 。 强 化 网 络 与 之 不 同 ， 它 会 与 环境 进行 闭环 交互 ， 接 收 传感器 输 
入 ， 做 出 决定 并 采取 行动 。 强 化 学 习 的 基础 ， 是 观察 动物 怎样 通过 探索 
环境 中 的 各 种 选择 并 从 结果 中 学 习 ， 从 而 在 不 确定 的 条 件 中 解决 难题 。 
随 着 学 习 能 力 的 提高 ， 探 索 过 程 逐渐 减少 ， 最 终 会 直接 利用 学 习 过 程 中 
发 现 的 最 佳 策略 。 


观察 


图 10-2 强化 学 习 场 景 。 智 能 体 (agent) 通过 采取 行动 (actions) 和 进行 观察 

(observation) 来 积极 探索 环境 。 如 果 行 动 成 功 ， 执 行 器 将 得 到 奖励 

(rewards) 。 该 过 程 的 目标 ， 是 通过 学 习 怎 样 采取 行动 来 最 大 化 可 能 获得 的 奖励 。 
假设 你 必须 做 出 一 系列 决定 才能 达成 目标 。 如 果 你 已 经 知道 所 有 潜 

在 的 选择 和 它们 各 自 可 能 带 来 的 奖励 ， 你 就 可 以 使 用 搜索 算法 一 一 具体 

来 说 ， 也 就 是 理 查 德 . 贝 尔 受 (Richard Bellman) 的 动态 规划 算法 


(algorithm for dynamic programming) , 三 即 找 出 能 最 大 化 未 来 奖励 的 

选择 集 。 但 是 随 着 可 能 的 选择 越 来 越 多 ， 问 题 的 规模 也 呈 指 数 级 增长 ， 
这 被 称 为 “ 维 数 灾难 ” (curse. of dimensionality) ， 本 章 的 开头 已 经 对 其 
进行 了 说 明 。 但 是 ， 如 果 在 选择 前 没有 获得 关于 选择 结果 的 所 有 信息 ， 
你 就 要 学 会 即时 做 出 最 好 的 选择 。 这 就 是 所 谓 的 “在 线 学 习 ”(online 


learning) 。 


理 碍 德 : 萨 顿 〈 见 图 10-3) 的 在 线 学 习 算法 依赖 于 期 望 奖励 和 实际 
奖励 之 间 的 差异 〈 见 方 框 10.1) 。 在 时 间 差 分 学 习 (temporal difference 
learning) 中 ， 你 需要 估计 出 在 当前 状态 下 做 出 行动 有 可 能 带 来 的 长 期 
奖励 〈 基 于 已 得 到 的 奖励 而 得 出 的 较 好 估计 ) ， 以 及 下 一 个 状态 中 潜在 
的 长 期 奖励 ， 并 将 二 者 相 比 较 。 当 前 状态 得 到 了 实际 奖励 ， 因 此 估计 会 
更 准确 。 通 过 让 之 前 的 估计 更 接近 改进 后 的 估计 ， 你 做 出 的 决定 也 会 越 
来 越 好 。 存 在 一 个 价值 网 络 ， 能 够 估算 出 棋盘 每 个 位 置 上 的 未 来 奖励 ， 
对 该 网 络 进行 的 更 新 则 被 用 于 决定 下 一 步 的 行动 。 在 你 有 足够 的 时 间 来 
探索 不 同 的 可 能 性 后 ， 时 间 差 分 算法 会 收敛 于 最 佳 规则 ， 指 导 如 何在 给 
定 状 态 下 做 出 决策 。 维 数 灾难 是 可 以 避免 的 ， 因 为 事实 上 ， 在 棋盘 所 有 
可 能 的 位 置 中 有 一 小 部 分 会 被 访问 ， 但 这 足以 为 新 对 局 中 类 似 的 棋盘 位 
置 制定 出 好 的 策略 。 


图 10-3 2006 年 在 加 拿 大 埃 德 蒙 顿 阿 尔 伯 塔 大 学 的 理 查 德 。 萨 顿 。 他 教会 了 我 们 获取 
未 来 奖励 的 学 习 方 法 。 理 查 德 是 一 位 癌症 幸存 者 ， 他 在 强化 学 习 方面 一 直 是 领军 人 
物 ， 并 在 持续 不 断 地 开发 创新 型 的 算法 。 他 总 是 很 慷慨 地 和 别人 交流 ， 分 享 自己 的 
见解 ， 同 领域 的 每 个 人 对 此 都 非常 赞赏 。 他 和 安德鲁 。 巴 托 合 著 的 书 《 强 化 学 习 丑 
i) (Reinforcement Learning: An Introduction) 是 该 领域 的 经 典 著 作 之 一 。 此 
书 的 第 二 版 在 互联 网 上 可 以 免费 获取 。 图 片 来 源 : 理 查 德 。 萨 顿 。 


杰 拉 德 . 特 索 罗 的 程序 名 为 "TD-Gammon”， 内 建 了 西洋 双 陆 棋 棋 盘 
和 规则 的 重要 特征 ， 但 它 并 不 知道 怎么 下 好 每 一 步 棋 。 在 学 习 的 初始 阶 
段 ， 这 些 棋 步 是 随机 的 ， 但 最 终 某 一 方 会 局 ， 并 得 到 最 终 奖 励 。 西 洋 双 
陆 棋 的 顾家 是 第 一 个 将 其 所 有 棋子 从 棋盘 上 “剔除 ?出 来 的 玩家 。 


10.1 
Er el zor ed 

这 个 蜜蜂 大 脑 的 模型 能 够 选择 行动 (比如 落 在 一 条 花 上 ) ， 以 
最 大 化 未 来 所 有 的 折扣 奖励 (discounted rewards) : 


感官 输入 


R(t)=rt+1+Yrt+2+ YTt+3t- i 
rt+1 是 在 时 间 t+1 时 的 奖励 ，0 < y< 1 是 折扣 系数 。 基 于 当前 感 
官 输入 s( 的 预测 的 未 来 奖励 是 通过 神经 元 P 计 算出 来 的 : 


pels) = wySY+ Wbsb 


来 自 黄 色 (Y) EAMA (B) 花茶 的 传感器 输入 被 分 别 以 wy 和 
we 加 权 。 位 于 时 间 t 的 奖励 预测 误差 5(D 计算 方法 如 下 : 


of= retyP (Sp) — Pr(st_1) 
rt 代表 当前 的 奖励 。 每 个 权重 的 改变 如 下 : 


Ow = ad tSt—] 
co 代表 学 习 速 率 。 如 有 果 当 前 奖励 大 于 预测 奖励 ， 且 6 是 正 值 ， 奖 


励 出 现 之 前 的 感官 输入 的 权重 吏 会 增加 ， 但 是 如 果 当 前 奖励 小 于 预 
测 奖励 ， 且 6 是 负 值 ， 感 官 输入 的 权重 就 会 减少 。 


图 片 改编 自 : Montague, P. R. and Sejnowski, T. J., The Predictive 
Brain: Temporal Coincidence and Temporal Order in Synaptic Learning 


Mechanisms, figure6 A. 


由 于 唯一 的 实际 奖励 发 生 在 游戏 结束 时 ， 你 可 能 会 合理 地 推测 TD- 

Gammon Fi 56° 7d BFR? 吉 局 ， 然 后 是 游戏 的 中 间 部 分 ， 最 后 是 开局 。 

这 些 实际 上 是 发 生 在 “表格 强化 学 习 ”(tabular pi learning) 的 
过 程 ， ada s E dri cM ale iy 但 它 与 神经 网 络 
络 快速 锁定 输入 特征 中 的 简单 可 笔 信 号 ， 接 独 锁 定 
后 期 较 复杂 、 不 RHA 言 号 。TD-Gammon 学 习 的 第 一 个 概念 
是 “ 拿 走 棋子 ”， 可 以 通过 对 表示 拿 走 棋子 数目 的 输入 特征 谎 加 正 的 权重 
来 实现 。 第 二 个 概念 是 “ 击 中 对 手 棋子 一 一 这 是 一 个 在 所 有 阶段 效果 都 
相当 不 错 的 局 发 式 做 法 ， 一 部 分 输入 单元 对 被 击 中 的 对 手 棋子 的 数 
行 了 编码 ， 可 以 通过 为 这 些 单 元 加 上 正 权 重 进行 学 习 。 第 三 个 概念 
免 被 击 中 ”是 对 第 二 个 概念 的 一 种 自然 反应 ， 可 以 通过 对 可 en 
的 单个 棋子 施加 负 权 重 来 学 习 。 第 四 个 概念 是 通过 “积累 积分 ?来 阻止 对 


手 前 进 ， 通 过 对 积分 输入 赋予 正 权 重 来 学 习 。 理 解 这些 基 本 概念 需要 完 
成 几 干 场 的 训练 棋局 。 通 过 一 万 场 棋局 ，TD-Gammon 会 学 习 到 中 级 概 
念 ; 通过 10 万 场 棋局 ， 它 开始 学 习 高 级 概念 ; 经 历 了 100 万 场 棋局 后 ， 
它 已 经 学 会 了 冠军 级 的 概念 ， 或 者 超越 了 20 世 纪 90 年 代 初 人 类 玩家 的 水 
3s 

TS RE ZR T 19921E [a] AETHER ZR STD-Gammon, ‘ERRI 
我 和 其 他 同行 都 感到 非常 惊讶 。 三 这 个 程序 的 价值 函数 value 
function) 是 一 个 具有 80 个 隐藏 单元 的 反 回 传播 网 络 。 在 30 万 场 比赛 之 
后 ， 该 程序 击败 了 杰 拉 德 ， 于 是 他 联系 了 著名 的 西洋 双 陆 棋 世 界 冠 军 选 
手 兼作 家 比尔 :罗伯特 (Bil Robertie) ， 并 邀请 他 来 约克 敦 海 茨 的 IBM 
跟 TD-Gammon 对 局 。 罗 伯 特 赢得 了 大 部 分 的 棋局 ， 但 是 对 在 一 些 胜 算 
较 高 的 对 局 中 沙 败 不 免 感 到 惊讶 ， 随 后 他 宣布 这 是 他 对 记过 的 最 好 的 西 
洋 双 陆 棋 程 序 。TD-Gammon 展 现 了 一 些 他 从 未 见 过 的 横路， 经 过 一 和 
仔细 研究 ， 这 些 棋 路 被 证 明 可 以 在 总 体 上 提升 人 类 玩家 的 水 平 。 当 该 程 
序 与 自己 对 局 达到 150 万 次 时 ， 罗 但 特 回 来 了 ， 而 且 非 常 惊讶 于 自己 居 
然 只 跟 TD-Gammon 打 了 个 平手 。 它 的 水 平 突 飞狐 进 ， 罗 伯 特 觉得 它 已 
经 达到 了 人 类 冠军 的 水 平 。 西 洋 双 陆 棋 专 家 基 特 : 伍 尔 西 (Kit 
Woolsey) 发 现 ， 当 时 TD-Gammon 对 于 应 该 打 安 全 牌 〈 低 风险 / 低 奖 
励 ) 还 是 走 险 着 (高 风险 /高 奖励 ) 的 判断 ， 比 他 见 过 的 任何 人 都 要 准 
确 。 虽 然 150 万 局 的 训练 可 能 看 起 来 已 经 很 多 了 ， 但 它 只 代表 了 所 有 
102 个 可 能 的 西洋 双 陆 棋 板 位 置 的 无 限 小 部 分 ， 这 要 求 TD-Gammon 的 几 
乎 每 一 步 棋 都 能 推广 到 新 的 棋 板 位 置 。 


TD-Gammon 并 没有 像 IBM 的 “ 深 览 ”那样 受到 公众 的 关注 ， 后 者 在 
1997 年 的 国际 象棋 比赛 中 击败 了 加 里 : 卡 斯 由 罗 夫 (Gary Kasparov) 。 
国际 象棋 比 西洋 双 陆 棋 要 困难 得 多 ， 卡 斯 由 罗 夫 当时 是 国际 象棋 的 世界 
冠军 。 但 在 某 些 方面 ，TD-Gammon 是 一 个 令 人 印象 更 加 深刻 的 成 就 。 
首先 ，TD-Gammon 使 用 模式 识别 技术 来 教会 自己 如 何 下 棋 ， 这 与 人 类 
学 习 的 风格 十 分 相似 ， 而 “深蓝 ” 则 通过 骏 力 算法 (brute force) 获得 胜 


利 ， 使 用 特制 硬件 ， 比 任何 人 类 棋 手 都 能 预见 到 更 多 可 能 的 棋 路 。 其 

次 ，TD-Gammon 也 很 有 创意 ， 使 用 了 人 类 从 未 见 过 的 微妙 策略 和 位 置 
决策 。 这 样 一 来 ，TD-Gammon 也 提高 了 人 类 的 竞 技 水 平 。 这 一 成 就 是 
人 工 智能 历史 上 的 一 道 分 水 岭 ， 因 为 我 们 从 一 个 人 工 智能 程序 中 学 习 到 
了 新 东西 。 该 程序 教会 了 上 自己 如 何在 一 个 人 类 熟 稚 的 领域 中 掌握 一 种 复 
杂 的 策略 ， 这 种 新 集 略 值得 人 们 关注 和 思考 。 


大 脑 的 奖励 机 制 


TD-Gammon 的 核心 是 时 间 差 分 学 习 算 法 ， 它 受到 了 动物 学 习 实 验 
的 启发 。 几 乎 所 有 经 过 测试 的 物种 ， 从 蜜蜂 到 人 类 ， 都 可 以 进行 关联 训 
练 ， 就 像 巴 甫 洛 夫 的 狗 一 样 。 在 巴 甫 洛 夫 的 实验 中 ， 诸 如 铃声 之 类 的 感 
官 刺 激 之 后 ， 束 会 有 食物 出 现 ， 这 会 引起 流 洗 反应 。 经 过 几 次 这 样 的 配 
对 之 后 ， 仅 靠 铃 声 本 身 就 会 导致 流 旋 。 不 同 物种 在 关联 学 习 中 对 无 条 件 
刺激 有 不 同 的 偏好 。 密 蜂 非 常 擅长 将 花 的 气味 、 颜 色 和 形状 与 花蜜 的 奖 
励 联系 起 来 ， 并 利用 这 种 学 习 到 的 关联 来 找到 当 季 盛开 的 相似 品种 的 
花 。 这 种 普遍 的 学 习 方式 一 定 包 含 了 什么 重要 信息 。20 世 纪 60 年 代 有 一 
段 时 期 ， 心 理学 家 们 深入 研究 了 引起 关联 学 习 的 条 件 ， 并 开发 了 解释 它 
的 模型 。 像 斯 金 纳 (B. F. Skinner) 这 样 的 行为 主义 学 家 曾 训 练 馏 子 识 
别 出 照片 中 的 人 类 ， 这 就 让 人 联想 起 对 深度 学 习 的 训练 ， 但 这 其 中 有 一 
个 很 大 的 区 别 。 反 问 传 播 学 习 需 要 对 输出 层 上 的 所 有 单元 提供 详细 的 反 
馈 ， 但 关联 学 习 只 提供 单一 的 奖励 信号 ， 即 正确 或 不 正确 。 大 脑 必须 弄 
清楚 环境 中 的 哪些 特征 能 够 帮助 做 出 成 功 的 抉择 。 

只 有 在 奖励 之 前 发 生 的 刺激 才 被 认为 和 奖励 有 关联 。 这 是 有 道理 
的 ， 相 比 奖励 之 后 的 刺激 ， 奖 励 之 前 的 刺激 更 有 可 能 引发 奖励 。 因 果 关 
系 是 自然 界 的 一 个 重要 原则 。 相 反 的 情况 则 是 条 件 刺 激 之 后 伴随 的 您 
加 ， 例 如 撞 到 脚 这 一 后 果 ， 能 教会 动物 在 今后 避免 这 类 刺激 。 在 某 些 情 
况 下 ， 条 件 刺 激 和 惩罚 之 间 的 时 间 间 隔 可 能 会 相当 长 。20 世 纪 50 年 代 ， 


约翰 :加 西亚 (John Garcia) 表明 ， 如 果 一 只 老鼠 被 别 了 甜水 ， 并 且 在 几 
小 时 后 感到 和 恶心， 那么 它 在 接 下 来 的 几 天 都 会 避 开 甜水 。 这 就 是 所 谓 
的 “味觉 厌恶 学 习 ”(taste aversion learning) ， 它 也 会 发 生 在 人 类 身上 。 
三 有 时 ， 恶 心 会 被 错误 地 关联 到 摄取 的 食物 上 ， 如 巧克力 。 遗 憾 的 是 ， 
巧克力 只 是 与 其 他 东西 同时 被 食用 ， 而 不 是 引起 恶心 的 原因 ;而 由 此 产 
生 的 厌恶 感 可 以 持续 多 年 ， 即 使 当事人 已 经 理性 地 觉察 到 巧克力 并 不 是 
问题 的 根源 。 


多 巴 胺 (Dopamine) 是 脑 干 中 一 组 由 扩散 投射 神经 元 所 携带 的 神经 
调节 剂 〈 见 图 10-4) ， 长 期 以 来 一 直 被 认为 与 奖励 学 习 有 关 ， 但 人 们 始 
终 不 清楚 它 传 给 皮层 的 信号 是 什么 。20 世 纪 90 年 代 ， 我 实验 室 的 博士 后 
研究 员 彼 得 : 达 扬 (Peter Dayan) 和 瑞 德 . 蒙 塔 古 (Read Montague) 意识 
到 ， 多 巴 胺 神经 元 可 以 实现 时 间 差 分 学 习 。 三 这 是 我 科研 生涯 中 最 让 人 
兴 香 的 几 个 时 期 之 一 ， 这 些 模型 及 其 预测 得 以 发 表 ， 并 随后 被 汪 尔 夫 拉 
姆 : 舒 尔 次 Wolfram Schultz) 及 其 同事 通过 猴子 的 单 神经 元 记录 《〈 见 图 
10-5) 三 和 人 类 脑 成 像 三 加 以 证 实 。 现 在 已 经 确定 ， 多 巴 胺 神经 元 活 
动 的 瞬时 变化 传递 了 奖励 预测 误差 信和 号。 


图 10-4 人 脑 中 的 多 巴 胺 神经 元 。 位 于 中 脑 的 几 个 核 [VTA 和 黑 质 (substantia 
nigra) ] 将 轴 突 投射 进入 皮层 和 基底 神经 节 LAKH (striatum) 和 伏 隔 核 
(nucleus accumbens) ] 。 瞬 态 脉 冲 (Transient bursts) 标志 着 奖励 预测 和 获得 
奖励 两 者 之 间 存 在 差异 ， 可 以 被 用 于 选择 行动 和 修改 预测 。 


没有 预期 
奖励 发 生 


有 预期 
奖励 友 生 


有 预期 
没有 奖励 发 生 


图 10-5 猴 脑 中 多 巴 胺 神经 元 的 反应 ， 证 明了 它 能 够 向 大 脑 的 其 他 部 分 发 出 奖励 预测 
误差 。 每 个 点 都 是 多 巴 胺 神经 元 的 一 次 脉冲 。 每 一 条 线 都 是 单一 的 学 习 试验 。 每 个 
时 间 段 中 脉冲 的 数量 显示 在 记录 的 顶部 。 (上 图 ) 在 学 习 开 始 时 ， 奖 励 (R) 是 意外 
得 到 的 ， 多 巴 胺 在 得 到 奖励 后 激发 了 一 段 脉冲 。 (中 图 ) 经 过 多 次 试验 ， 当 光照 

(AF RIK, conditioned stimulus, CS) 在 奖励 发 放 前 持续 闪现 时 ， 多 巴 胺 细胞 


对 CS 做 出 了 反应 ， 但 没有 对 奖励 做 出 回应 。 根 据 时 间 差 分 学 习 ， 奖 励 后 的 响应 被 奖 
励 前 的 预测 抵消 了 。 (FA) 当 奖 励 在 试验 中 被 扣留 时 ， 多 巴 胺 神经 元 的 激发 在 预 
期 出 现 奖励 的 位 置 出 现 了 回落 。 图 片 改编 自 : Schultz, Dayan, and Montague, “A 
Neural Substrate of Prediction and Reward,” 1594, figure 1。 


1992 年 ， 我 去 相 林 和 拜访 了 正在 研究 蜜蜂 大 脑 快 速 学 习 的 兰 道夫 : 门 
泽 尔 (Randolph Menzel) ， 当 时 我 们 在 灵 长 类 动物 的 奖励 预测 误差 方面 
己 经 取得 了 一 些 进 展 。 蜜 蜂 的 学 习 能 力 在 昆虫 界 是 数一数二 的 。 在 访问 
一 秋 花 几 次 并 得 到 奖励 后 ， 冤 蜂 就 能 记 住 这 条 人 花 。 父 蜂 脑 中 有 大 约 100 
万 个 小 神经 元 ， 很 难 记 录 这 些 神经 元 的 活动 ， 因 为 它们 非常 小 。 门 泽 尔 
的 小 组 发 现 了 一 种 叫 作 “VUMmx1” 的 独特 神经 元 ， 它 对 其 糖 有 反应 ， 但 
对 气味 没有 反应 。 然 而 ， 如 果 先 传递 气味 再 提供 蔗糖 奖励 ，YUMmxl 也 
会 对 气味 做 出 反应 。 三 时 间 差 分 学 习 的 多 巴 胺 模型 在 蜂 脑 中 可 能 由 单个 
神经 元 实现 。VUMmx1 释 放 了 一 种 在 化 学 上 与 多 巴 胺 密切 相关 的 神经 调 
节 剂 PGE ELA Coctopamine) 。 这 种 蜜蜂 学 习 模 式 可 以 对 蜜蜂 心理 
学 中 一 些微 妙 的 方面 做 出 解释 ， 比 如 风险 规避 。 三 如 果 让 蜜蜂 在 “定时 
定量 的 奖励 "和 “在 一 半 的 时 间 内 获得 双 倍 奖励 "之 间 进 行 选择 ， 蜜 蜂 会 
始终 选择 前 者 ， 尽 管 奖励 的 平均 值 相同 。 三 多 巴 胺 神经 元 也 存在 于 苍蝇 
体内 ， 并 且 已 被 证 明 包 含 几 条 用 于 短期 和 长 期 关联 记忆 的 并 行 强 化 学 习 
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是 通过 增加 多 巴 胺 的 分 泥水 平 起 作 用 。 当 死亡 的 多 巴 胺 神经 元 达到 一 定 
数量 时 ， 人 体 束 会 出 现 帕 金森 病 的 症状 、 包 括 运 动 性 震颤 ， 运 动 运 绥 ， 
后 期 则 完全 丧失 任何 活动 的 快感 ， 即 “快感 缺失 ”(anhedonia) ， 最 终 导 
致 活动 和 反应 能 力 的 彻底 缺失 ， 即 “紧张 性 抑郁 障碍 ”(catatonia〉。 当 
意外 奖励 发 生 时 ， 行 为 正常 的 多 巴 胺 细胞 会 句 皮 层 和 其 他 脑 部 区 域 短暂 
释放 多 巴 胺 。 当 实际 奖励 低 于 期 望 时 ， 多 巴 胺 的 释放 量 会 减少 。 这 正 是 


时 间 差 分 算法 的 特征 《〈《 见 图 10-5) 。 

当 我 们 需要 做 出 决定 时 ， 都 会 询问 多 巴 胺 神经 元 。 我 们 应 该 从 沫 单 
中 点 些 什么 ? 当 我 们 想象 每 个 菜品 时 ， 多 巴 胺 细胞 就 会 提供 对 预期 奖励 
的 估计 。 我 应 该 和 这 个 人 结婚 吗 ? 我 们 的 多 巴 胺 细胞 会 给 我 们 一 个 比 理 
性 分 析 更 值得 信赖 的 “直觉 ”建议 。 最 难以 决定 的 则 是 带 有 许多 不 相称 维 
度 的 问题 。 在 选择 配偶 时 ， 要 如 何平 衡 幽 默 感 和 遗 示 的 生活 习惯 ， 或 者 
在 正面 和 负面 的 特质 之 间 做 出 数 以 百 计 的 其 他 权衡 。 我 们 的 奖励 系统 将 
所 有 这 些 维度 降低 到 了 一 个 “通用 货币 ”的 范畴 ， 即 短暂 的 多 巴 腕 信和 号 。 
这 种 “通用 货币” 的 经 济 力量 在 我 们 发 现 它 之 前 很 长 一 段 时 间 ， 束 已 经 被 
大 目 然 所 利用 了 。 

时 间 差 分 学 习 算 法 中 存在 两 个 参数 ， 学 习 速 率 a 和 折扣 因子 y (见方 
框 10.1，〉。 某 些 昆 虫 具 有 很 高 的 学 习 速 率 ， 比 如 蜜蜂 ， 在 一 次 访问 后 束 
可 以 学 会 将 花 与 奖励 联系 起 来 。 但 哺乳 动物 的 学 习 速 率 较 低 ， 往 往 要 和 演 
试 多 次 。 折 扣 因 子 (discount factor) 也 在 很 大 的 范围 内 变化 。 当 y= 0 
时 ， 学 习 算 法 是 贫 禁 的 ， 仅 仅 基 于 是 否 能 立刻 获得 奖励 做 出 决定; 但 是 
4y= 1 时 ， 所 有 未 来 奖励 都 具有 相等 的 权重 。 在 一 个 经 典 的 实验 中 ， 被 
测试 的 幼 童 可 以 选择 是 立刻 吃 反手 里 的 一 颗 栅 花 糖 ， 还 是 等 竺 15 分 钟 再 
吃 ， 到 时 候 就 能 再 得 到 一 颗 棉 花 糖 。 三 年 龄 是 一 个 强 有 力 的 预测 因子 ， 
年 龄 较 小 的 孩子 无 法 延迟 满足 感 。 如 果 认 为 有 必要 ， 我 们 可 以 在 短期 内 
做 出 融 来 负面 回报 的 选择 ， 以 交换 在 遥远 的 将 来 所 期 望 获得 的 更 丰厚 的 
奖励 。 

多 巴 胺 神经 元 接受 来 自 大 脑 中 被 称 为 “基底 神经 节 ” 部 分 的 输入 〈 见 
图 10-4) ， 众 所 周知 ， 这 对 于 顺序 学 习 和 习惯 行为 的 形成 是 很 重要 的 。 
基底 神经 节 纹 状 体 中 的 神经 元 接受 来 自 整 个 大 脑 皮 层 的 输入 。 来 自 皮 叶 
层 后 半 部 分 的 输入 ， 对 于 学 习 动 作 的 顺序 以 实现 某 个 目标 而 言 十 分 重 
要 。 前 额 叶 皮层 对 基底 神经 节 的 输入 更 多 的 是 与 行动 的 计划 顺序 有 关 。 
从 皮层 到 基底 神经 节 再 返回 的 循环 需要 100 萤 秒 ， 每 秒 循环 信息 10 次 。 
这 了 吏 人 允许 通过 一 系列 快速 诀 策 来 实现 目标 。 基 底 神 经 节 的 神经 元 也 会 评 


佑 皮层 状态 ， 并 为 它们 分 配 一 个 值 。 

基底 神经 节 执 行 的 是 杰 拉 德 . 特 索 罗 在 TD-Gammon 中 训练 的 价值 函 
数 的 高 级 版 本 ， 后 者 被 用 来 预测 棋盘 位 置 的 价值 。 在 第 1 章 中 描述 的 由 
DeepMind 公 司 开 发 的 AlphaGo 所 取得 的 惊人 成 就 ， 即 具备 围棋 世界 冠军 
级 别 的 能 力 ， 是 基于 与 TD-Gammon 相 同 的 体系 结构 ， 但 前 者 是 后 者 的 
加 强 版 。TD-Gammon 价 值 网 络 中 的 一 层 隐 藏 单元 在 AlphaGo 中 变 成 了 十 
几 层 ， 并 经 历 了 数 百 万 次 对 决 ， 但 基本 的 算法 是 一 样 的 。 这 是 对 神经 网 
络 学 习 算法 出 色 的 缩放 性 的 生动 演示 。 如 果 我 们 继续 增加 网 络 规模 和 训 
练 时 间 ， 人 性 能 还 会 获得 多 大 程度 的 提升 呢 ? 

棋 类 游戏 的 规则 比 现 实 世界 要 简单 得 多 。 电 子 游戏 世界 为 迈 回 更 复 
林 和 不 确定 的 环境 提供 了 一 块 垫 脚 石 。DeepMind 在 2015 年 已 经 表明 ， 
时 间 天 分 学 习 能 够 以 屏幕 像素 为 输入 ， 学 习 如 何在 超人 的 水 平 上 玩 像 
Pong 这 样 的 雅 达 利 〈Atari) 街机 游戏 。 三 下 一 个 热 脚 石 是 三 维 环境 中 
的 视频 游戏 。《 星 际 争霸 》 (Star Craft) 是 有 史 以 来 最 具 竞 争 力 的 视频 
游戏 之 一 ，DeepMind 正 在 使 用 它 来 开发 可 在 该 世界 纵横 掉 阁 的 上 自主 深 
度 学 习 网 络 。 微 软 研究 院 最 近 购 买 了 另 一 种 流行 的 视频 游戏 《我 的 世 
界 》 Minecraft) 的 版 权 ， 并 开放 了 它 的 源 代码 ， 以 便 其 他 人 可 以 对 它 
的 三 维 环境 进行 个 性 化 修改 ， 从 而 加 快 其 人 工 智 能 的 发 展 进度 。 


能 够 像 冠 苗 那 样 下 西洋 双 陆 棋 和 围棋 ， 是 一 项 了 不 起 的 成 惑 ， 玩 电 
子 游戏 是 下 一 个 重要 的 进步 ， 那 么 解决 现实 世界 的 问题 呢 ? 感知 一 行动 
周期 〈 见 图 10-2) 可 用 于 解雇 任何 基于 感官 数据 来 计划 行动 的 问题 。 行 
为 的 结果 可 以 与 预测 的 结果 进行 比较 ， 其 差 值 随后 被 用 于 更 新 进行 预 涡 
的 系统 的 状态 ， 对 先前 条 件 的 记忆 可 以 被 用 来 优化 资源 的 使 用 ， 并 预计 
潜在 的 问题 。 

加 拿 大 安大略 省 汉密尔顿 市 老 克 马 斯 特大 学 〈MCcMaster 
University) 的 西蒙 . 赫 金 (Simon Haykin) ， 曾 经 使 用 这 个 框架 来 提高 
几 个 重要 的 工程 软件 系统 的 性 能 ， 三 包括 : 认 知 无 线 电 ， 可 以 动态 分 配 
通信 渠道 ， 认 知 雷 达 ， 能 够 动态 地 移动 频带 以 减少 干扰 ; 还 有 认 知 电 


| 
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网 ， 可 以 动态 平衡 电网 电力 负载 。 风 险 控制 也 可 以 在 同一 个 “感知 一 行 
动 ” 框 架 内 进行 管理 。 三 通过 在 每 个 软件 系统 中 使 用 “感知 一 行动 ”框架 
来 改进 它们 所 管理 的 领域 ， 可 以 显著 地 提高 绩效 并 降低 成 本 。 
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(Massimo Vergassola) 和 我 都 在 思考 ， 是 否 可 以 利用 时 间 差 分 学 习 ， 
让 滑翔 机 在 蜗 空 秋 翔 几 小 时 ， 而 且 像 许多 乌 类 那样 不 用 消耗 太 多 能 量 。 
己 热 膨胀 空气 能 够 将 鸟 类 带 到 很 高 的 高 度 ， 但 是 在 热 空 气 中 ， 空 气 是 漠 
流 的 ， 同 时 存在 向 下 和 向 上 的 气流 。 面 对 如 此 多 的 冲击 ， 鸟 类 是 如 何 保 
持 它 们 向 上 轨迹 的 ， 我 们 对 此 还 没有 一 个 清晰 的 认识 。 我 们 的 第 一 步 是 
对 消 流 对 流 过 程 进行 一 个 逼真 的 物理 模拟 ， 并 创建 一 个 滑翔 机 空气 动力 
学 模型 。 下 一 步 束 是 模拟 滑翔 机 在 灌流 中 的 轨迹 。 

一 开始 ， 滑 翔 机 还 无 法 利用 上 升 的 空气 柱 ， 表 现 为 回 下 滑行 ( 见 图 
10-60 。 在 将 “向 上 ”标记 为 奖励 后 ， 滑 翔 机 开始 学 习 一 种 策略 ， 经 过 几 
百 次 试验 后 ， 它 的 飞行 轨迹 跟 鸟 类 因 翔 时 所 形成 的 紧 凌 的 环 状 路 径 就 比 
较 相 似 了 。 滑 翔 机 还 学 习 了 应 对 不 同 程度 汕 流 的 不 同 策略 。 通 过 分 析 这 
些 策 略 ， 我 们 可 以 提出 假设 ， 并 参考 乌 类 普 翔 是 否 的 确 使 用 到 了 这 些 策 
略 。 然 后 ， 我 们 装备 了 一 架 别 展 有 6 英尺 宽 的 滑翔 机 ， 教 它 因 翔 并 保持 
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图 10-6 滑翔 机 学 习 使 用 热气 流 番 翔 的 模拟 。 (FA) 在 我 们 的 瑞 利 - 贝 纳 尔 对 流 
(Rayleigh-Bé nard convection) 三 维 数值 模拟 中 垂直 速度 场 (A) 和 温度 场 〈B) 
的 截图 。 重 直 速度 场 中 ， 红 色 和 蓝 色 分 别 表 示 上 升 气流 和 下 降 和 气流 的 区 域 。 温 度 场 
中 ， 红 色 和 蓝 色 分 别 表 示 高 温和 低温 区 域 。 (上 图 ) 未 经 训练 的 滑翔 机 (A) 和 经 过 
训练 的 滑翔 机 (B) 在 瑞 利 - 贝 纳 尔 滋 流 中 飞行 的 典型 轨迹 。 颜 色 表 示 滑 翔 机 经 历 的 
垂直 风速 。 绿 色 和 红色 圆 点 分 别 表示 轨迹 的 起 点 和 终点 。 未 经 训练 的 滑翔 机 随机 做 
出 决定 并 下 降 飞 行 高 度 ， 而 训练 过 的 滑翔 机 在 强 上 升 气 流 区 域 以 特征 的 螺旋 轨迹 飞 
行 ， 如 乌 类 和 滑翔 机 在 热气 流 中 飞行 时 所 观察 到 的 那样 。 图 片 来源 : G. Reddy, 
A.Celani, T. J. Sejnowski, and M. Vergassola, “Learning to Soar in 
Turbulent Environments, ” top: figure 2; bottom: figure 11. 


学 习 如 何 歌唱 


能 够 展现 强化 学 习 能 力 的 其 他 例子 ， 还 包括 乌 类 如 何 学 习 唱 歌 ， 以 
及 孩子 如 何 学 习 说 话 。 在 这 两 种 情况 下 ， 听 和 觉 学 习 的 初始 阶段 结束 之 
后 ， 就 进入 了 渐进 式 运 动 性 学 习 的 后 期 阶段 。 斑 胸章 汰 在 刚 出 生 不 和 久 惑 


昕 到 了 它们 父亲 的 歌声 ， 但 要 几 个 月 后 才能 发 出 自己 的 声音 。 即 使 当 它 
们 在 运动 学 习 阶 段 与 父亲 分 离 时 ， 会 经 历 一 段 听 起 来 很 刺耳 的 初 鸣 期 ， 
但 这 种 声音 会 不 断 地 改善 ， 最 终 按照 它们 父亲 特有 的 音调 发 出 鸟 呜 。 斑 
胸 草 誉 可 以 通过 同 物种 的 歌声 判断 它 来 自 森 林 的 何 处 ， 就 像 我 们 能 够 从 
一 个 人 的 口音 得 知 那个 人 来 自 哪 里 一 样 。 推 动 鸟 鸣 研究 的 假设 是 ， 在 听 
觉 学 习 阶 段 ， 乌 类 先 学 习 模板 ， 然 后 用 模板 来 改进 运动 系统 在 运动 性 学 
习 阶 段 产生 的 声音 。 我 们 知道 强化 学 习 发 生 在 基底 神经 节 ， 而 负责 人 类 
和 鸣 禽 运动 学 习 阶 段 的 通路 也 位 于 那里 。 

1995 年 ， 我 实验 室 的 博士 后 铜 谷 贤 治 (Kenji Doya) FE T% 
动 细 化 ”的 强化 学 习 模型 〈 见 图 10-7) 。 该 模型 通过 调整 运动 通路 中 的 
突 触 ， 使 之 与 鸟 类 的 发 声 器 官 ( 即 鸣 管 ，syrinx) 模型 相 匹 配 ， 从 而 提 
高 了 它 的 性 能 ， 然 后 测试 新 歌 是 否 比 前 一 首 歌 更 符合 这 个 模板 。 如 果 是 
的 话 ， 这 些 变化 就 被 保留 ， 但 如 果 新 的 歌曲 匹配 效果 较 差 ， 那 么 突 触 就 
会 衰减 回 原来 的 强度 。 三 我 们 预测 ， 在 产生 音节 序列 的 运动 回路 的 顶 
端 ， 应 该 只 活跃 在 歌曲 单个 音节 上 的 神经 元 ， 以 便 更 容易 地 对 每 个 音节 
分 别 进 行 调整 。 后 来 ， 矿 省 理工 学 院 的 米 歇 尔 : 菲 (Michale Fee) 实验 
室 和 其 他 乌 类 实验 室 的 研究 结果 证 实 了 这 一 点 ， 同 时 也 证 实 了 该 模型 中 
的 其 他 关键 预测 。 


Pupils of succeeding clutches 
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图 10-7 斑 胸 草 稚 的 鸟 鸣 。 在 图 右 侧 的 频谱 图 中 ， 父 亲 的 歌唱 〈 导 师 ， 上 图 ) AAT 
儿子 〈 学 生 ， 上 数 第 二 张 图 ) ， 于 是 这 种 鸟 鸣 的 声音 特征 代 代 相传 。 注 意 频 庶 图 
(时 域 上 的 频谱 功率 函数 ) 中 基调 (红色 轮廓 框 ) 的 相似 性 。 基 调 随 着 代 际 的 增长 
而 变 短 。 左 图 来 源 : http://bird-photoo. blogspot. com/2012/11/zebraf inch- 
bird-pictures. html; 右 图 来 源 : Olga Feher Haibin Wang, Sigal Saar, Partha 
P. Mitra, and Ofer Tchernichovski, “De novo Establishment of Wild-Type 
Song Culture in the Zebra Finch," figuer 4. 


在 加 州 大 学 旧金山 分 校 研究 乌 鸣 学 习 的 艾 莉 和 森 : 杜 普 C Allison 
Doupe) ， 以 及 在 西雅图 华盛顿 大 学 研究 婴儿 语言 系统 发 育 的 由 特 里 夏 ， 
库 尔 (Patricia Kuhl) ， 都 证 明了 鸣 禽 学 习 和 幼儿 语言 学 习 方面 有 很 多 
相似 之 处 。 三 鸟 儿 的 音节 和 届 儿 的 音素 首先 是 作为 声音 被 习 得 的 〈 即 听 
觉 学 习 ) ， 而 运动 学 习 随 后 才 以 乌 类 的 初 呜 和 屡 儿 的 嘱 呀 学 语 开 始 。 在 
大 脑 中 有 许多 因 领 域 而 异 的 学 习 和 记忆 系统 ， 这 些 系统 必须 协同 工作 以 
获取 新 技能 。 鸟 类 学 习 鸟 鸣 的 强化 学 习 算 法 以 及 在 猴子 、 人 类 、 密 蜂 等 
奖励 系统 中 的 时 间 差 分 学 习 算法 ， 只 是 其 中 的 两 个 例子 。 


人 工 智 能 的 可 塑性 


尽管 人 们 在 视觉 和 听觉 等 认 知 功能 的 自动 化 方面 取得 了 进展 ， 但 人 
工 智能 还 需要 在 人 类 智能 的 许多 其 他 方面 取得 进步 。 皮 层 中 的 表征 学 习 
与 基底 神经 节 中 的 强化 学 习 相 辅 相 成 。 人 工 智能 学 习 能 把 精通 围棋 的 能 
力 运用 到 解决 其 他 复杂 问题 上 吗 ? 大 部 分 人 类 学 习 都 是 基于 观察 和 模 
仿 ， 对 于 学 习 识 别 新 对 象 ， 我 们 需要 的 样本 比 深度 学 习 要 少 得 多 。 未 标 
记 的 感官 数据 非常 丰富， 强大 的 无 监督 学 习 算法 可 以 在 进行 任何 监督 之 
前 使 用 这 些 数据 学 到 一 些 东 西 。 在 第 7 章 中 ， 一 个 无 监督 版 本 的 玻 尔 效 
人 受 学 习 算 法 被 用 来 初始 化 深度 学 习 网 络 。 在 第 6 章 中 ， 独 立 分 量 分 析 
一 一 一 种 无 监督 学 习 算 法 ， 能 够 从 上 自然 图 像 中 提取 稀 朴 编码 (sparse 
population codes) 。 在 第 9 章 ， 生 成 对 抗 网 络 一 一 一 个 无 监督 的 学 习 系 
统 ， 可 以 创建 逼真 的 图 片 。 无 监督 学 习 是 机 器 学 习 的 下 一 个 前 治 领 域 。 
我 们 对 大 脑 式 计算 的 理解 才刚 刚 拉 开 序幕 。 


大 脑 的 许多 学 习 系 统 和 形式 多 样 的 可 塑性 可 以 协同 工作 。 仪 在 大 脑 
皮层 内 就 有 几 十 种 可 塑性 ， 例 如 神经 元 兴奋 性 和 增益 的 可 塑性 。 突 触 可 
塑性 一 个 特别 重要 的 形式 是 稳 态 (homeostatic) ， 它 确保 神经 元 在 最 佳 
动态 范围 内 活动 。 当 突 触 强度 降低 到 零 或 达到 极限 时 ， 会 发 生 什么 呢 ? 
这 可 能 导致 神经 元 永远 不 会 获得 足够 的 输入 来 达到 闪 值 ， 或 者 接收 太 多 
的 输入 并 始终 保持 高 水 平 的 活动 。 吉 娜 - 特 里 吉 亚 诺 (Gina Turrigiano) 
在 大 脑 中 发 现 了 一 种 新 的 突 触 可 塑性 形式 ， 它 将 神经 元 上 的 所 有 突 触 进 
行 了 归 一 化 ， 以 维持 神经 元 活动 的 平衡 。 三 如 果 平 均 活 动 速率 过 高 ， 所 
有 兴奋 性 突 触 强 度 都 会 减 小 ;如果 速率 太 低 ， 所 有 突 触 强度 都 会 增加 。 
对 于 抑制 性 输入 ， 情 况 则 相反 ， 如 果 活 动 速 率 太 高 ， 突 触 强 上 度 会 增加 ， 
速率 太 低 则 减 小 。 类 似 的 归 一 化 形式 已 经 被 证 明 能 够 有 效 地 模拟 大 脑 中 
神经 映射 的 发 展 。 三 由 随机 梯度 下 降 (stochastic gradient descent) 驱动 
的 人 工 神 经 网 络 能 够 从 稳 态 缩放 Chomeostatic scaling) 中 受益 。 


大 脑 在 其 神经 元 细胞 膜 上 有 共有 数 十 个 电压 敏感 的 配 体 门 控 离 子 通 


道 ， 用 以 调节 兴奋 性 和 信号 传导 。 神 经 元 的 树 突 、 体 细胞 和 轴 突 内 部 一 
定 有 茶 种 基于 局 部 活动 模式 的 机 制 ， 来 动态 调节 这 些 通道 的 位 置 和 密 
度 。 有 人 曾 提出 过 几 种 算法 来 实现 这 些 机 制 。 三 目前 ， 我 们 对 这 些 稳 态 
形式 的 理解 并 没有 达到 突 触 稳 态 可 塑性 那样 的 深度 。 


更 多 需要 被 解 次 的 问题 


在 蒙特 利 尔 举行 的 2015 年 NIPS 大 会 的 “Brains，Minds and 
Machines”( 大脑 、 思 维和 机 器 〉 座 谈 会 ， 以 及 2016 年 巴塞 罗 那 NIPS 大 
会 的 “Bits and Brains”( 比 特 与 大 脑 ) 研讨 会 期 间 ， 戴 米 斯 : 哈 桂 比 斯 和 
我 在 关于 人 工 智 能 未 来 ， 以 及 下 一 个 优先 研究 重点 的 问题 上 进行 了 激烈 
的 辩论 。 人 工 乔 能 中 还 有 许多 开放 的 问题 需要 解决 。 最 重要 的 就 是 因果 
关系 问题 ， 它 提供 了 最 高 层次 的 人 类 推理 ， 以 及 行动 的 意 问 性 问题 ， 这 
两 者 都 预示 着 一 种 精神 理论 。 我 之 前 提 到 ， 我 们 所 创造 的 深度 学 习 系 统 
都 不 能 依靠 自己 独立 生存 。 这 些 系 统 的 自主 性 只 有 在 它们 包含 了 运 今 为 
止 一 直 被 忽视 的 ， 类 似 于 大 脑 其 他 部 分 的 功能 时 才 有 可 能 实现 ， 例 如 管 
理 摄食 、 繁 殖 、 调 市 激素 、 稳 定 内 脏 的 下 丘脑 ， 以 及 帮助 我 们 根据 运动 
预测 误差 来 调整 运动 的 小 脑 。 这 些 都 是 在 所 有 将 椎 动物 中 发 现 的 古老 结 
构 ， 对 生存 起 着 至 关 重 要 的 作用 。 

哈 瓦 : 西 格 尔 曼 (Hava Siegelmann) 是 马萨诸塞 大 学 阿 默 斯 特 分 校 
的 计算 机 科学 家 ， 她 表明 模拟 计算 Canalog computing) 是 超 图 灵 
Csuper-Turing) ， 也 就 是 说 ， 拥 有 能 够 超越 数字 计算 机 的 计算 能 
三 可 以 根据 环境 进行 调整 和 学 习 的 神经 网 络 也 有 超 图 灵 计 算 能 力 ， 而 普 
通 网 络 从 训练 集中 学 习 ， 然 后 其 结构 就 被 固定 下 来 ， 在 操作 时 不 再 从 它 
们 的 实际 经 验 中 学 习 ， 这 一 点 和 图 灵机 是 一 样 的 。 但 是 ， 我 们 的 大 脑 必 
须 持续 适应 不 断 变 化 的 条 件 ， 这 就 使 我 们 具备 了 超 图 灵 能 力 。 我 们 如 何 
做 到 这 一 点 并 同时 拥有 以 前 的 知识 和 技能 ， 是 一 个 尚未 解决 的 问题 。 哈 
瓦 是 DARPA 终 身 学 习 项 目的 项 目 经 理 。 她 的 “终身 学 习 计 划 ” 正 在 资助 


一 些 高 级 研究 ， 这 些 研究 旨 在 为 目 治 系统 中 的 终身 学 习 创建 新 的 集成 架 
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11 
火爆 的 NIPS 


要 追寻 科学 思想 的 源头 并 非 易 事 ， 因 为 科学 是 分 布 在 不 同时 空中 很 
多 个 体 活动 的 集合 。 神 经 信息 处 理 系统 大 会 (NIPS 大 会 ， 见 图 11-1) 是 
本 书写 作 的 线索 。 到 目前 为 止 ， 很 明显 ， 这 一 会 议 不 仅 对 我 ， 也 对 整个 
科学 领域 产生 了 重大 影响 。 三 当时 还 没 成 为 我 妻子 的 比 阿 特 丽 斯 : 哥 伦 
布 ， 在 1990 年 的 NIPS 大 会 上 做 了 关于 SEXNET 的 演讲 。 在 结婚 后 不 久 的 
一 次 NIPS 大 会 上 ， 我 们 还 差点 分 手 。NIPS 大 会 让 人 着 迷 ， 白 天 都 是 一 
些 会 议 的 常规 环节 ， 墙 报 展示 环节 设 在 晚上 ， 直 到 后 半夜 各 个 会 场 仍然 
人 声 易 沸 。 有 次 我 在 凑 晨 3 点 参加 完 一 个 环节 的 活动 ， 回 到 房间 没 找到 
比 阿 特 丽 斯 ， 当 时 我 意识 到 自己 麻烦 大 了 。 和 幸运 的 是 ，28 年 后 ， 我 们 还 
在 一 起 。 


fs 


AS, 


图 11-1 NIPS 大 会 的 标志 。30 年 前 成 立 的 NIPS 大 会 是 机 器 学 习 和 深度 学 习 领 域 的 顶级 
会 议 。 图 片 来 源 : NIPS 基 金 会 。 


为 什么 NIPS 如 此 受 欢 迎 


深度 学 习 拥 有 很 长 的 历史 ， 可 以 追溯 到 NIPS 年 度 大 会 和 研讨 会 ， 以 
及 这 些 会 议 的 前 身 。20 世 纪 80 年 代 ， 来 自 世 界 各 地 的 工程 师 、 物 理学 
家 、 数 学 家 、 心 理学 家 和 神经 科学 家 在 NIPS 大 会 上 齐 聚 一 党 ， 探 讨 共同 
构建 人 工 智 能 的 新 方法 。 物 理学 家 分 析 神 经 网 络 模型 ， 心 理学 家 模拟 人 
类 认 知 ， 神 经 科学 家 模拟 神经 系统 并 分 析 神 经 记录 ， 统 计 学 家 探索 高 维 
空间 中 的 大 数据 集 ， 工 程 师 则 负责 构建 具备 类 人 的 视觉 和 听觉 的 设备 。 
人 工 智 能 就 以 这 样 的 方式 飞速 发 展 起 来 。 

1987 年 在 美国 丹佛 技术 中 心 举办 的 第 一 届 NIPS 大 会 ， 聚 集 了 400 位 
与 会 者 。 学 术 会 议 通 常 侧重 于 狭窄 的 研究 领域 ， 因 为 每 个 人 都 会 说 同样 
的 术语 ， 彼 此 间 能 顺畅 地 交流 。 但 是 早期 NIPS 大 会 的 科学 多 样 性 确实 令 
人 惊叹 。 生 物 学 家 在 面 对 其 他 生物 学 家 做 演讲 时 ， 会 用 生物 领域 的 术 
语 。 三 数学 家 和 物理 学 家 交流 的 情况 更 糟 糙 ， 他 们 只 会 用 方程 式 说 话 。 
工程 师 们 会 好 一 些 ， 因 为 他 们 构建 的 东西 不 言 自 明 。 由 于 这 些 文化 障 
碍 ， 跨 学 科研 究 虽 然 被 普遍 寄予 厚望 ， 但 事实 上 却 很 难 实 现 。 在 早期 的 
NIPS 大 会 上 ， 好 像 每 个 人 都 在 自 说 自 话 。 


1987 年 NIPS 大 会 的 主要 会 议 结束 之 后 ， 与 会 者 在 附近 的 滑雪 胜地 
Keystone 义 聚集 到 一 起 开 了 个 研讨 会 ， 并 自行 组 织 了 小 组 会 议 。 在 一 个 
不 那么 正式 的 环境 里 ， 学 科 之 间 的 真正 沟通 开始 了 。 我 清楚 地 记得 ， 我 
们 在 Keystone 的 热 水 浴 氏 里 泡 深 的 时 候 ， 一 位 神经 学 博士 建议 当场 开展 
一 个 关于 海 免 的 研讨 会 。 三 当时 我 劳 边 那 位 来 自 美 国 国防 部 的 绅士 ， 很 
可 能 在 琢磨 海 倪 与 国家 安全 有 什么 关系 。 然 而 今天 ，NIPS 研 讨 会 都 是 市 
有 墙报 展示 环节 的 小 型 会 议 ， 其 中 一 些 研讨 会 吸引 了 数 千 名 与 会 者 。 


是 什么 让 NIPS 长 期 受到 追捧 呢 ? 首先 ， 是 让 人 激动 的 氛围 ， 因 为 我 
们 正 处 于 用 受 生物 学 启发 的 学 习 算 法 来 解决 复杂 计算 问题 的 前 沿 。 其 
次 ， 就 是 因为 爱德华 :波斯 纳 ( 见 图 11-2，， 他 是 加 州 理工 学 院 的 信息 
理论 家 ， 也 是 喷气 推进 实验 室 (Jet Propulsion Lab) 的 首席 技术 专家 。 
他 对 这 个 领域 有 着 长 远 的 眼光 ， 并 建立 了 NIPS 基 金 会 对 大 会 进行 管理 。 


一 个 组 织 的 文化 往往 能 反映 其 创始 人 的 特质 。 爱 德 华 赋予 了 NIPS 窒 


智 、 机 敏和 幽默 感 的 独特 组 合 。 他 是 一 位 擅长 局 发 别人 的 老师 ， 同 时 也 
是 皇 有 成 效 的 领导 者 。 他 因为 文 持 暑 期 大 学 生 研 究 奖 学 金 项 目 
(Summer Undergraduate Research Fellowships， 简 称 SURF) 而 在 加 州 理 
工学 院 备 受 爱戴 ， 该 项 目 被 称 为 "加州 理工 星 冠 上 的 宝石 ?> 之 一 。 爱 德 华 
tH ae SEAR RRK (Phil Sote) 作为 公益 法 律 顾 问 。 数 十 年 间 ， 会 议 
规模 和 复杂 程度 都 在 不 断 增 长 。 在 索 特 尔 的 努力 下 ， 许 多 随 之 而 来 的 问 
题 都 妥善 地 得 到 了 解决 ， 因 此 大 会 得 以 每 年 顺利 举行 。 


"m 
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图 11-2 加 州 理工 学 院 的 爱德华 。 波 斯 纳 ，NIPS 大 会 的 发 起 人 。 该 大 会 在 举办 了 30 年 
后 仍然 颇 受 欢迎 ， 这 跟 爱 德 华 的 远见 车 识 密 不 可 分 。 图 片 来 源 : 加 州 理 工学 院 。 
爱德华 在 我 妻子 还 很 年 轻 的 时 候 束 认识 她 了 ， 并 且 通 过 NIPS 蛙 独 结 
识 了 我 。 所 以 当 我 在 一 次 NIPS 大 会 中 突然 告诉 他 ， 比 阿 特 丽 斯 和 我 已 经 
订婚 (engaged) 了 的 时 候 ， 他 回答 说 : “致力 于 (engaged) 什么 ? =) 
爱德华 于 1993 年 在 一 次 自行 车 事故 中 不 委身 亡 ， 随 后 我 接 蔡 他 成 为 NIPS 
基金 会 主席 ， 保 证 大 会 的 继续 发 展 和 繁荣 。 我 们 在 每 年 的 NIPS 大 会 上 都 
会 举办 爱德华 :波斯 纳 讲座 (Ed Posner Lecture) ， 以 表示 对 他 的 缅怀 和 
敬 间 。NIPS 大 会 的 特 洲 演讲 吉 宾 通常 都 不 是 NIPS 主 流 领域 内 的 从 业 
者 ， 但 波斯 纳 讲座 主要 的 演讲 者 都 是 来 自我 们 这 个 群体 ， 并 对 该 领域 做 
出 重大 页 献 的 成 员 。 


NIPS 大 会 的 主席 团 由 一 群 杰 出 的 科学 家 和 工程 师 组 成 。 在 此 仪 列举 
几 位 。 斯 科 特 : 柯 元 帕特里克 是 一 位 物理 学 家 (在 第 7 章 中 己 经 介绍 
BD ， 他 发 明了 一 种 让 计算 机 先 “ 加 热 ” 再 慢 慢 “ 冷 却 ?， 来 解决 计算 难题 
的 “模拟 退火 算法 ”。 塞 巴 斯 带 安 : 特 隆 是 一 位 计算 机 科学 家 (在 第 1 章 中 
介绍 过 ) ， 他 赢得 了 2005 年 DARPA 自 动 驾 驶 挑战 大 赛 ， 为 今天 的 自动 
驾驶 汽车 打开 了 大 门 。 达 甘 妮 :科勒 (Daphne Koller) 是 一 位 计算 机 科 
学 家 ， 也 是 Coursera( 将 在 第 12 章 介绍 ) 的 联合 创始 人 ， 开 创 了 共 课 领 
域 的 先河 。 

大 数据 促成 了 深度 学 习 的 腾飞 。 不 久 前 ， 一 太 字 市 (terabyte， 即 
万 亿 字 市 ) 的 数据 还 需要 占用 整个 机 架 ; 而 现在 ， 在 单个 记忆 棒 上 束 可 
以 存储 一 太 字 市 的 数据 。 互 联网 公司 的 数据 中 心 存 储 的 信息 以 招 字 节 
(petabyte) 计量 ， 每 拍 字 节 包 含 1024 太 字 节 (1 拍 字 节 =10? 字 节 ) 。 自 
20 世 纪 80 年 代 以 来 ， 世 界 上 的 数据 量 每 三 年 翻 一 番 。 每 天 都 有 数 干 招 字 
节 的 数据 被 上 传 到 互联 网 上 ， 其 总 容量 达到 了 泽 字 市 (zettabyte， 即 100 
万 拍 字 节 ， 或 1021 字 节 ) 。 大 数据 爆炸 的 影响 不 仅 体 现在 科学 和 工程 领 
域 ， 也 延伸 到 了 社会 生活 的 方方面面 。 如 果 没 有 互联 网 上 的 数 百 万 张 图 
像 和 其 他 标签 数据 ， 就 无 法 训练 真正 的 大 型 深度 学 习 网 络 。 


世界 各 地 的 大 学 都 在 为 数据 科学 建立 新 的 中 心 、 研 究 机 构 和 科 系 。 
艾 利克 斯 : 萨 雷 (Alex Szalay) E 1998 年 以 来 ， 就 在 斯 隆 数 字 巡 天 项 目 
(Sloan Digital Sky Survey， 下 文 简 称 SDSS; http://www.sdss.org/) 中 收 
集 天 文 数 据 。2009 年 ， 凭 借 自 己 的 这 份 经 历 ， 他 在 约翰 . 截 普 金 斯 大 学 
建立 了 数据 密集 工程 和 科学 研究 所 〈Institute for Data Intensive 
Engineering and Science， 简 称 IDIES) 。SDSS 使 得 天 文学 家 收集 的 数据 
总 量 成 干 倍 地 增长 ， 是 当今 世界 上 被 使 用 次 数 最 多 的 天 文学 设施 。 然 
而 ， 正 在 建设 中 的 大 型 综合 性 天 空 巡 天 望远镜 (Large Synoptic Sky 
Survey Telescope, https://www.lsst.org/) 收集 的 拍 字 节 规 模 的 数据 集 ， 
将 超越 斯 隆 数字 巡天 项 目 收集 的 太 字 节 规 模 的 数据 集 达 1000 倍 之 多 。 
2013 年 ， 当 杨 立 昆 在 纽约 大 学 创立 数据 科学 中 心 时 ， 每 个 科 系 都 有 老师 


于 着 手中 的 数据 去 拜访 他 。2018 年 ， 加 州 大 学 革 迭 蕊 分校 建立 了 新 的 
Haliaoglu 数 据 科学 研究 所 。 数 据 科 学 硕士 学 位 (Masters in Data 
Science degrees, fj/#KMDSs) 正 变 得 像 工 商 管理 硕士 (MBA) 一 样 受 
NEH. 
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2012 年 在 太 浩 湖 举行 的 NIPS 大 会 上 ， 深 上 度 学 习 领 域 的 研究 已 经 日 趋 
成 熟 〈 见 图 11-3) 。 在 这 次 大 会 上 ， 早 期 的 神经 网 络 先驱 杰 弗 里 . 辛 顿 
和 他 的 学 生 们 发 表 了 一 篇 论文 ， 文 中 指出 ， 多 层 神经 网 络 在 识别 图 像 中 
的 对 象 方面 性 能 非常 出 色 。 三 这 些 网 络 不 仅 比 现 有 计算 机 的 视觉 技术 更 
好 ， 它 们 甚至 已 经 处 于 一 种 完全 不 同 的 更 高 层次 中 ， 更 加 接近 人 类 的 表 
现 水 准 。《 纽 约 时 报 》 刊 登 了 一 篇 关于 深度 学 习 的 文章 ， 同 时 Facebook 
宣布 与 另 一 位 深度 学 习 先 驱 杨 立 昆 合 作成 立 一 个 新 的 人 工 智 能 实验 室 ， 
由 后 者 担任 创始 实验 室 主任 。 


Facebook 4 E PUT BS ot FL 5a (Ate (Mark Zuckerberg) 参与 了 
2012 年 的 NIPS 深 度 学 习 研 讨 会 。 当 时 安保 成 了 令 人 头痛 的 问题 ， 但 也 吸 
引 了 更 多 的 与 会 者 ， 我 们 不 得 不 分 流 了 一 部 分 人 到 另外 一 个 播放 会 场 同 
步 视 频 的 房间 。 在 之 后 的 招待 会 上 ， 我 被 介绍 给 了 扎 克 伯 格 ， 他 问 了 些 
关于 大 脑 的 问题 。 他 对 心智 理论 特别 感 兴趣 。 在 心理 学 中 ， 有 一 个 关于 
心 镶 如 何 工作 的 内 隐 理 论 ， 我 们 以 它 为 指导 来 理解 他 人 。 我 们 给 朋友 发 
短信 时 ， 并 没有 意识 到 在 打字 时 大 脑 做 出 的 许多 决定 。 扎 克 伯 格 问 了 很 
多 问题 。“ 我 的 大 脑 如 何 构建 我 自己 的 心理 模型 ? ”我 的 大 脑 如 何 根据 
经 验 来 创建 其 他 人 的 心理 模型 ? “我 的 大 脑 如 何 预测 其 他 人 的 未 来 行 
为 ? “其 他 物种 有 没有 心智 理论 ? PCB LTE ROR SE 2G PT TEAR T 
一 个 关于 心智 理论 的 研讨 会 ， 扎 克 伯 格 想 要 研讨 会 上 所 有 的 参考 资料 。 


LAKE TAHOE NEVADA 


DECEMBER 5 - 10, 2013 
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图 11-3 在 太 浩 湖 赌 场 举办 的 2012 NIPS 大 会 是 深度 学 习 领 域 的 一 个 转折 点 ， 让 “ 神 
经 ”重新 回归 了 “神经 信息 处 理 系统 ”。 图 片 来 源 : NIPS 基 金 会 。 

在 机 器 学 习 中 ， 谁 拥有 最 多 的 数据 ， 谁 惑 是 局 家 ， 显 然 Facebook 上 所 
拥有 的 关于 人 们 点 赞 、 好 友和 照片 的 数据 让 其 他 人 只 能 望 其 项 背 。 利 用 
所 有 这 些 数据 ，Facebook 可 以 创建 我 们 的 心智 理论 ， 并 用 它 来 预测 我 们 
的 偏好 和 政治 倾 回 ， 甚 至 有 一 天 可 能 会 比 我 们 更 了 解 我 们 自己 。 
Facebook 有 天 一 日 会 成 为 奥 威 尔 小 说 中 老大 哥 的 化 身 吗 ? 三 你 会 觉得 这 
是 一 个 令 人 不 宕 而 职 的 前 景 ， 还 是 发 现 有 一 个 能 满足 你 需求 的 数字 管家 
很 方便 ?我 们 可 能 会 问 Facebook 是 否 应 该 拥有 这 种 权力 ， 但 在 这 个 问题 
上 我 们 也 许 并 没有 多 少 发 言 权 。 

尽管 我 们 在 太 浩 湖 的 赌场 举办 了 2012 年 和 2013 年 的 NIPS 大 会 ， 但 与 
会 者 都 避 开 了 赌 蝎 。 他 们 知道 赌场 庄家 获胜 的 可 能 性 更 大 ， 更 何况 ， 他 
们 正在 做 的 事情 比 赌博 更 令 人 兴奋 。 赌 博 会 让 人 上 交 ， 那 是 因为 多 巴 胶 
奖励 预测 误差 系统 是 我 们 大 脑 的 一 部 分 〈 在 第 10 章 中 讨论 过 ) 。 赌 场 已 
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经 优化 了 有 利于 博彩 的 条 件 : 获得 巨大 回报 的 允诺 ; 随机 间隔 的 偶然 小 
胜 (奖励 ) 一 一 研究 已 经 证 明 ， 这 是 保持 实验 室 老鼠 不 停 按 下 食物 按钮 
的 最 佳 方式 ， 在 老虎 机 上 获胜 时 触发 的 声音 和 灯光 ; ER SITE, 
将 由 光线 驱动 的 昼夜 节律 与 正常 的 日 夜 更 替 分 开 ， 俱 思 你 下 注 。 不 过 从 
长 远 来 看 ， 庄 家 显然 赢得 更 多 。 

在 蒙特 利 尔 召开 的 2015 年 NIPS 大 会 上 ，3800 名 国际 与 会 者 拥 入 了 蒙 
特 利 尔 会 议 中 心 。 会 议 开 场 时 的 深度 学 习 课程 环节 非常 受 欢 迎 ， 导 致 人 
满 为 患 。 出 于 防火 安全 方面 的 考虑 ， 我 们 不 得 不 遗 散 了 一 些 人 。 高 科技 
行业 中 几乎 所 有 拥有 大 数据 的 公司 都 采用 了 深度 学 习 技术 ， 这 一 趋势 正 
在 以 更 快 的 速度 扩散 。 在 巴塞 罗 那 举行 的 2016 年 NIPS 大 会 开始 前 两 周 ， 
我 们 将 与 会 人 数 限制 在 5400 名 。 一 个 从 纽约 飞 来 的 人 很 失望 地 发 现 他 无 
法 在 现场 注册 。2017 年 在 长 滩 举 行 的 NIPS 大 会 在 注册 开放 12 天 后 就 限制 
注册 了 ， 与 会 者 达到 了 8000 人 。 如 果 自 2014 年 以 来 ， 每 年 出 席 会 议 的 人 
数 按 50% ”的 增 速 持续 下 去 ， 那 么 最 终 地 球 上 的 每 个 人 都 会 想 参 加 NIPS 
大 会 。 当 然 ， 泡 沫 最 终 会 破裂 ， 但 是 与 大 多 数 泡沫 一 样 ， 没 有 人 知道 这 
事 儿 什么 时 候 会 发 生 。 

来 日 科学 和 工程 部 门 的 许多 研究 人 员 继 续 聚 集 在 NIPS 大 会 上 ，30 午 
来 年 年 如 此 。 不 过 ， 在 巴塞 罗 那 举行 的 2016 年 NIPS 大 会 上 ，5400 名 与 会 
者 中 有 40% “的 人 是 第 一 次 参加 会 议 。 在 2016 年 之 前 ，NIPS 基 金 董事 会 
都 明智 地 决定 让 会 议 保 持 在 单一 会 场 举 行 ， 这 对 于 大 型 会 议 来 说 很 少 
见 。 其 背后 的 初衷 ， 是 让 每 个 人 都 能 坐 在 同一 个 房间 里 ， 防 止 场地 分 散 
化 。 但 在 2016 年 ， 单 一 会 场 变 成 了 双 会 场 ， 因 为 很 难 再 找到 足够 大 的 房 
间 装 下 所 有 人 。 尽 管 如 此 ， 这 也 远 远 少 于 大 多 数 其 他 大 型 会 议 中 常见 的 
10 个 会 场 。NIPS 的 文章 接受 率 一 直 保持 在 20% 左 右 ， 低 于 大 多 数 期 刊 的 
接受 率 。NIPS 在 2016 年 举办 了 “机 器 学 习 中 的 女性 ”(Women in Machine 
Learning， 和 人 简称 WiML) 会 议 ， 三 为 巴塞 罗 那 带 来 近 600 名 女性 与 会 者 
( 占 与 会 者 总 人 数 的 10%) ， 有 1000 名 女性 参加 了 2017 年 在 长 滩 举 行 的 
会 议 。 多 样 性 继续 成 为 NIPS 大 会 的 标志 。 没 有 任何 一 个 领域 能 够 独立 汇 
集 创造 了 深度 学 习 的 多 样 化 人 才 。 


也 许 让 人 感到 意外 的 是 ， 虽 然 具 备 了 影响 如 此 多 行业 的 潜力 ， 保 护 
深度 学 习 知 识 产 权 的 专利 却 很 少 。 在 20 世 纪 80 年 代 ， 我 们 和 希望 能 让 学 习 
算法 成 为 一 个 新 的 科学 领域 的 基础 ， 同 时 认为 获得 专利 对 此 起 不 到 什么 
积极 的 作用 。 有 军 无 疑问 ， 现 在 很 多 公司 已 经 为 深度 学 习 的 特殊 应 用 提交 
了 专利 ， 因 为 公司 不 会 在 没有 保护 的 情况 下 对 新 技术 进行 大 规模 投资 。 


为 未 来 做 准备 


神经 网 络 学 习 的 重大 突破 每 30 年 就 会 发 生 一 次 ， 从 20 世 纪 50 年 代 引 
入 感知 器 开始 ， 到 20 世 纪 80 年 代 学 习 多 层 感知 器 算法 ， 再 到 2010 年 开始 
兴起 深度 学 习 。 其 中 每 个 阶段 都 经 历 了 一 段 楷 宋 期 ， 在 短 时 间 内 取得 了 
飞跃 性 的 进展 ， 随 后 便 是 较 长 时 期 的 缓慢 有 发展。 但 是 其 中 一 个 不 同 点 在 
于 ， 随 痢 每 次 复兴 ， 兴 盛 时 期 的 影响 一 直 有 增 无 减 。 最 新 的 增长 动力 来 
源 于 大 数据 的 普及 ， 而 NIPS 的 故事 早 束 为 这 一 天 的 到 来 做 好 了 准备 。 


1. NIPS 会 议 中 的 所 有 文章 都 可 以 在 网 络 上 获取 : https://nips.cc/. 

E 为 了 体验 生物 学 家 的 行 话 ， 请 参考 从 最 近 的 一 篇 科学 综述 中 随机 抽取 的 这 人 句 话 :“ 少 
突 胶 质 细胞 包含 多 种 抑制 轴 突 再 生 的 重 白质 ， 包 括 髓 磷脂 相关 糖 蛋 白 ， 神 经 突 生长 抑制 
剂 ‘(Nogo”， 少 突 胶 质 细 胞 髓 戎 糖 蛋 白 和 信号 素 *。 (“Oligodendrocytes present a variety of 
proteins inhibitory to axon regrowth,including myelin-associated glycoprotein, the neurite- 


outgrowth inhibitor ‘Nogo,’oligodendrocyte-myelin glycoprotein, and semaphorins.”) B. Laha, 
B. K. Staffordand A. D. Huberman, “Regenerating Optic Pathways from the Eye to the 
Brain,” Science 356, no. 6342 (2017): 1032. 

3. 这 位 神经 学 家 是 霍华德 . 瓜 克 特 尔 (Howard Wachtel) ， 他 当时 正在 科罗拉多 大 学 波 
尔 德 分 校 研 究 海 兔 的 神经 系统 。 

4. Engaged 一 词 赋 有 “订婚 ”之 意 ， 也 有 “致力 于 做 .….…. ”之 意 。 一 一 译 者 注 


5. Krizhevsky, Sutskever, and Hinton, “ImageNet Classification with Deep Convolutional 
Neural Networks.” 


6. George Orwell, Nineteen Eighty-Four(London: Secker & Warburg, 1949). 这 本 书 最 近 有 
了 新 的 含义 。 


“机 器 学 习 中 的 女性 ”(Women in Machine Learning) 这 一 组 织 成 立 于 2006 年 ， 为 机 器 
学 习 领 域 的 女性 创造 了 机 会 ， 并 推动 了 她 们 的 研究 。 请 参阅 http://wimlworkshop.org。 
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要 事 年 表 


1971 年 


诺 姆 。 乔 姆 斯 基 (Noam Chomsky) 在 《纽约 书评 》 杂 志 上 发 表 了 
《针对 斯 金 纳 的 驳斥 》 (The Case against B. F. Skinner) 一 文 ， 
这 篇 长 文 诱导 一 代 认 知 科 学 家 偏离 了 对 学 习 行 为 的 研究 。 

1982 年 


API e FR (Claude Shannon) 出 版 了 开创 性 的 书籍 《通信 的 
数学 理论 》 (A Mathematical Theory of Communication) ， 该 书 为 
当代 数字 通信 技术 奠定 了 基础 。 

1989 年 


F e X4% (Carver Mead) 出 版 了 著作 《模拟 大 规模 集成 电路 和 
神经 系统 》 (Analog VLSI and Neural Systems) ， 开 创 了 基于 仿 
生 芯 片 的 神经 形态 工程 (neuromorphic engineering) 研究 领域 。 


2002 年 


斯 蒂 芬 。 沃 尔 夫 勒 姆 (Stephen Wolfram) 出 版 了 书籍 《一 种 新 的 
科学 》 (A New Kind of Science) 。 这 本 书 探 完 了 细胞 自动 机 
(cellular automata) 的 计算 能 力 ， 这 些 算法 比 神经 网 络 更 简单 ， 
但 是 仍 能 完成 强大 的 运算 。 

2005 年 
塞 巴 斯 蒂 安 。 特 隆 的 团队 赢得 了 DARPA 自 动 驾驶 汽车 大 赛 。 


2008 年 


JEF LI o (2 -R AWG X, (Tobias Delbrück) 研发 了 一 种 非常 成 
功 的 脉冲 视网膜 芯片 “动态 视觉 传感器 ” (Dynamic Vision 
Sensor， 简 称 DVS) ， 这 种 传感器 采用 异步 峰值 ， 而 不 是 像 现 在 的 数字 
摄像 机 利用 同步 帧 进行 图 像 捕 获 。 


2013 年 


白宫 宣布 启动 美国 “BRAIN 计 划 ”， 开 发 创新 的 神经 技术 ， 以 加 速 
我 们 对 大 脑 功 能 的 理解 。 


12 
智能 时 代 


认 知 计算 的 时 代 即 将 到 来 。 很 快 我 们 就 会 拥有 比 人 类 敬 驶 技术 更 高 
超 的 自动 驾驶 汽车 。 我 们 的 房子 会 识别 出 我 们 的 喘 份 ， 预 见 我 们 的 习 
惯 ， 有 客人 到 访 时 会 提醒 我 们 。 最 近 被 谷歌 收购 的 众 包 网 站 Kaggle， 曾 
经 举办 过 一 次 奖金 为 100 万 美元 的 用 CT 扫描 图 进行 肺癌 检测 的 竞赛 ， 它 
还 为 美国 国土 安全 部 举办 了 一 场 奖 金 达 150 万 美元 的 竞赛 ， 和 希望 寻找 到 
能 在 机 场 安检 时 检测 出 藏匿 物 的 技术 。 三 通过 认 知 计算 ， 医 生 的 助理 将 
有 能 力 诊 断 罕 见 疾病 ， 提 高 整体 医疗 水 平 。 我 们 已 经 有 了 数 干 个 这 样 的 
应 用 ， 将 来 还 会 出 现 更 多 类 似 的 应 用 。 有 些 工作 会 被 淘汰 ， 有 些 则 将 被 
创造 出 来 。 尽 管 认 知 计算 技术 十 分 具有 题 履 性 ， 我 们 的 社会 还 需要 时 间 
来 吸收 和 适应 ， 但 它 对 人 类 来 说 并 不 构成 生存 威胁 。 相 反 ， 我 们 正在 进 
入 一 个 发 现 和 启蒙 的 时 代 ， 我 们 会 变 得 更 聪明 ， 更 长 硅 ， 人 类 文明 也 会 
变 得 更 加 繁荣 。 

2015 年 ， 我 兽 在 由 IBM 赞 助 的 旧金山 认 知 计算 会 议 上 发 表演 讲 。 三 
IBM“ EEX ARAR (Watson) 项 目 进行 大 规模 投资 ， 沃 条 是 一 个 基于 
大 量 事实 数据 库 集 合 的 程序 ， 禾 盖 信 息 的 范围 从 历史 到 流行 文化 ， 包 罗 
万 象 ， 可 以 使 用 自然 语言 接口 的 各 种 算法 进行 查询 。 肯 : 詹 宁 斯 (Ken 
Jennings) 曾经 连续 192 天 在 74 场 智力 竞赛 节目 《和 危险 边缘 》 
(Jeopardy!) 中 赢得 了 胜利 ， 这 是 该 游戏 节目 历史 上 最 长 的 连 胜 纪 录 。 
2011 年 ， 湛 森 在 该 节目 中 击败 了 人 詹 宁 斯 ， 该 事件 引起 了 全 世界 的 注意 。 


在 从 酒店 出 发 到 会 场 的 出 租车 上 ， 我 无 意 中 听 到 了 后 座 两 名 IBM 管 
理 人 员 的 谈话 。IBM 当 时 正 要 推出 一 个 围绕 沃 森 的 平台 ， 该 平台 可 使 用 


非 结 构 化 数据 库 ， 来 组 织 和 回答 健康 和 金融 服务 等 专业 领域 的 问题 。 沃 
森 掌 握 的 数据 比 任何 人 可 能 知道 的 还 要 多 ， 可 以 回答 问题 并 提出 建议 。 
当然 ， 与 其 他 机 器 学 习 程序 一 样 ， 它 仍然 需要 人 类 提出 问题 ， 并 从 给 出 
的 建议 中 进行 选择 。 

IBM 早 已 裁撤 掉 了 硬件 部 门 ， 其 计算 机 服务 部 门 也 早已 风光 不 再 。 
IBM 在 添 森 上 花费 了 巨 资 ， 想 要 依靠 其 软件 部 门 来 帮忙 完成 700 亿 美元 
的 营 收 计划 。 该 公司 在 慕尼黑 已 为 沃 森 物 联网 业务 投资 了 2 亿美 元 用 来 
建立 新 的 全 球 总 部 ， 三 这 是 IBM 在 欧洲 有 史 以 来 最 大 的 一 笔 投 资 ， 为 的 
是 满足 6000 多 个 客户 不 断 增长 的 利用 人 工 智 能 来 改造 运营 业务 的 需求 
一 一 了 BM 计 划 在 全 球 投入 30 亿 美元 来 发 展 认 知 计 算 ， 而 这 只 是 其 全 球 计 
划 的 一 部 分 。 但 许多 其 他 公司 也 在 对 AI 进行 重大 投资 ， 现 在 想 要 断言 哪 
些 投注 会 赢 ， 哪 些 会 输 ， 还 为 时 尚 早 。 


21th 20 BO AE 35 


在 传统 医学 中 ， 通 常 采用 相同 的 治疗 方法 对 所 有 患 有 特定 病症 或 疾 
病 的 患者 进行 治疗 ， 但 现在 有 了 认 知 计算 ， 治 疗 已 变 得 更 加 个 性 化 ， 也 
更 精确 。 例 如 黑色 素 净 ， 过 去 患 上 这 种 疾病 的 人 就 等 同 于 被 判 了 死刑 
但 现在 已 经 可 以 通过 对 患者 的 癌 细 胞 进行 基因 测序 ， 并 针对 其 病症 设计 
出 独特 的 癌症 免疫 疗法 ， 以 停止 甚至 逆转 黑色 素 癌 的 病情 发 展 。 虽 然 这 
种 疗法 目前 的 治疗 费用 为 25 万 美元 ， 但 当 对 患者 癌症 基因 组 测序 的 基础 
成 本 降 至 几 千 美 元 ， 并 且 研 制 所 需 单 克隆 抗体 的 成 本 仅 为 几 百 美元 时 ， 
最 终 几乎 每 个 黑色 素 瘤 患者 都 有 能 力 负担 相关 的 医疗 费用 。 从 大 量 患者 
那里 收集 到 足够 多 变异 和 疗效 方面 的 数据 后 ， 医 疗 决策 将 变 得 更 好 ， 且 
收费 更 低 。 一 些 类 型 的 肺癌 也 可 以 用 相同 的 方法 进行 治疗 。 制 药 公司 正 
在 投资 癌症 免疫 治疗 研究 ， 许 多 其 他 种 类 的 癌症 也 许 很 快 就 能 被 治愈 。 
如 果 没 有 机 器 学 习 方法 来 分 析 大 量 遗 传 数据 ， 这 一 切 都 不 可 能 实现 。 

我 曾 担任 过 NIH 院 长 的 顾问 委 员 会 成 员 ， 为 推进 <BRAIN 计 划 " 提 供 


建议 。 我 们 的 报告 强调 了 概率 和 计算 技术 的 重要 性 ， 该 技术 能 帮助 我 们 
解释 由 新 的 神经 记录 技术 产生 的 数据 。 三 机 器 学 习 算 法 现在 被 用 于 分 析 
同时 来 自 数 干 个 神经 元 的 记录 ， 分 析 来 自 自 由 移动 动物 的 复杂 行为 数 
据 ， 以 及 从 电子 显微镜 的 一 系列 数字 图 像 中 目 动 重建 三 维 解剖 回路 。 通 
过 对 大 脑 进行 逆向 工程 ， 我 们 将 揭秘 自然 界 自 喘 发 现 的 许多 新 算法 。 


NIH 在 过 去 的 50 年 中 资助 了 神经 科学 的 基础 研究 ， 但 当前 的 趋势 是 
将 越 来 越 多 的 资助 转向 了 能 够 尽快 实现 医疗 应 用 的 转化 研究 。 我 们 当然 
希望 能 转化 已 经 发 现 的 技术 ， 但 如 果 现 在 不 为 新 的 发 现 提 供 资金 ， 那 么 
从 现在 开始 的 50 年 里 ， 我 们 几乎 或 根本 没有 任何 技术 可 应 用 于 临床 。 这 
也 是 为 什么 现在 就 开展 一 些 基础 研究 项 目 非常 重要 ， 例 如 “BRAIN 计 
划 ” 该 举措 能 够 帮助 我 们 找到 在 未 来 治疗 精神 分 裂 症 和 阿尔 北海 默 症 
等 衰弱 性 脑 部 疾病 的 方法 。 三 


未 来 的 身份 认证 


2006 年 ， 黑 客 从 美国 退伍 军人 事务 部 一 个 员工 家 中 的 电脑 里 窃取 了 
2650 万 退伍 军人 的 社会 安全 号 码 和 出 生日 期 信息 。 退 伍 军人 行政 处 当时 
是 使 用 社会 安全 号 码 作为 其 系统 中 的 退伍 军人 标识 符 ， 黑 客 甚 至 都 不 需 
要 解密 数据 库 。 有 了 社会 安全 号 码 和 出 生日 期 ， 黑 客 可 以 盗 取 任 何人 的 
身份 信息 。 


在 印度 ， 超 过 10 亿 的 公民 可 以 通过 指纹 、 虹 膜 扫 描 、 照 片 和 12 位 号 
份 写 码 ( 比 社会 安全 号 码 多 3 位 数字 ) 信息 进行 唯一 的 号 份 识 别 。 印 度 
的 Aadhaar 是 世界 上 最 大 的 生物 特征 识别 项 目 。 在 以 往 ， 一 位 想 要 得 到 
一 份 公共 文件 的 印度 公民 会 经 历 无 尽 的 等 待 ， 这 个 过 程 中 还 会 涉及 许多 
中 间 人 ， 每 个 人 都 会 向 他 索取 贿赂 。 而 如 今 ， 通 过 快速 生物 扫描 ， 公 民 
可 以 直接 获得 补贴 食品 权 和 其 他 福利 待遇 ， 许 多 没有 出 生 证 明 的 穷人 现 
在 也 拥有 了 便携 式 身 份 认证 ， 可 随时 随地 在 几 秒 钟 内 识别 出 身份 。 以 欺 
骗 手 段 获取 福利 的 身份 盗 鳃 行为 已 经 销声匿迹 了 。 一 个 人 的 身份 已 经 无 


法 再 被 窃 ， 除 非 小 偷 准 备 切断 这 个 人 的 手指 并 摘除 他 的 眼球 。 三 


“印度 国家 登记 处 ”是 南 丹 . 尼 勒 卡 尼 (Nandan Nilekani) 三 做 了 7 年 
的 一 个 项 目 ， 他 是 一 个 亿 万 富 剑 ， 并 且 是 印度 外 包公 司 Infosys 的 联合 创 
始 人 。 尼 勒 卡 尼 庞大 的 数字 数据 库 已 经 帮助 印度 在 身份 数字 化 方面 超越 
了 许多 发 达 国 家 。 根 据 尼 勒 卡 尼 的 说 法 :“ 一 个 小 的 增 量 变化 乘 以 10 
亿 ， 了 就 是 一 个 巨大 的 飞跃 。..………. 如 果 10 亿 人 能 够 在 15 分 钟 内 拿 到 手机 ， 
而 不 用 花 上 一 周 ， 那 么 这 将 为 经 济 注入 一 股 巨 大 的 生产 力 。 如 果 有 100 
万 人 能 让 资金 目 动 进 入 他 们 的 银行 账户 ， 这 将 是 经 济 上 巨大 的 生产 力 改 
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私 ， 尤 其 是 当 生 物 识别 码 与 其 他 数据 库 〈 如 银行 账户 、 医 疗 记录 和 犯罪 
记录 ) 以 及 其 他 公共 计划 《如 运输 ) 相关 联 时 。 隐 私 泄露 问题 在 美国 和 
许多 其 他 数据 库 间 互 相关 联 的 国家 已 经 很 严重 了 ， 即 使 它们 的 数据 是 匿 
名 的 。 三 显而易见 ， 无 论 我 们 是 人 否 愿 意 ， 我 们 的 手机 都 已 经 在 追踪 我 们 
的 行踪 了 。 
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影 经 常 将 人 工 智能 描述 为 像 人 类 一 样 走路 和 说 话 的 机 器 人 。 不 要 
指望 AI 看 上 去 像 1984 年 的 科幻 电影 《终结 者 》 里 操 着 德国 口音 的 终结 者 
那样 。 不 过 ， 你 会 与 2013 年 的 科幻 电影 《她 》 中 萨 曼 莎 一 样 的 AI 声 音 交 
流 ， 并 和 2017 年 科幻 电影 《星球 大 战 ， 原 力 觉醒 》 中 R2-D2 和 BB-8 一 类 
的 机 器 人 进行 互动 。AI 已 经 是 日 常生 活 的 一 部 分 。 认 知 设备 ， 比 如 亚 马 
还 Echo 吞 能 音箱 的 语音 助理 Alexa， 己 经 能 和 你 交谈 ， 并 很 高 兴 能 让 你 
的 生活 更 轻松 ， 更 有 满足 感 ， 就 像 2017 年 电影 《美女 与 野兽 》 中 的 时 钟 
和 茶具 一 样 。 生 活 在 一 个 拥有 那样 物种 的 世界 里 会 是 什么 样子 呢 ? 来 看 
看 我 们 迈 癌 社交 机 器 人 的 第 一 步 吧 。 


目前 ， 人 工 智能 的 进展 主要 集中 在 感官 和 认 知 方面 ， 运 动 和 行为 乔 
能 的 进展 还 未 见 端 侃 。 有 时 我 演讲 的 开场 日 便 是 ， 大 脑 是 已 知 宇宙 中 最 
复杂 的 设备 。 但 我 的 妻子 比 阿 特 丽 斯 是 一 位 医生 ， 她 经 常 提醒 我 襄 ， 大 
脑 只 是 身体 的 一 部 分 ， 而 吴 体 比 大 脑 更 复杂 ， 尽 管 身 体 的 复杂 性 《从 运 
动 性 演变 而 来 ) 是 不 同 的 。 

我 们 的 肌肉 、 肌 腿 、 皮 肤 和 骨骼 能 够 积极 地 适应 世界 的 变迁 、 地 心 
引力 和 其 他 同类 。 从 内 部 来 说 ， 我 们 的 号 体 是 化 学 加 工 的 奇迹 ， 可 以 将 
食物 转化 为 做 工 精细 的 号 体 部 件 。 它 们 是 由 内 而 外 工作 的 终极 3D 打 印 
机 。 我 们 的 大 脑 从 吴 体 各 个 部 分 的 内 脏 传 感 器 获得 输入 ， 这 些 传 感 器 不 
呆 监 测 身 体内 部 活动 ， 包 括 最 高 层次 的 皮层 表征 ， 就 内 部 优先 事项 做 出 
决定 ， 并 在 所 有 相互 竞争 的 要 求 之 间 维 持平 衡 。 从 真正 意义 上 来 说 ， 我 
们 的 号 体 是 大 脑 不 可 或 缺 的 组 成 部 分 ， 这 是 具 喘 认 知 Cembodied 
cognition) 的 核心 原则 。 三 


哈 维 尔 : 英 维 兰 (Javier Movellan) (图 12-1) 来 自 西班牙 ， 曾 经 是 
加 州 大 学 芋 迭 散 分 校 神经 计算 研究 所 机 器 感知 实验 室 的 教员 和 联合 主 
任 。 他 相信 ， 通 过 打造 能 够 与 人 类 互动 的 机 器 人 ， 我 们 将 比 采 用 传统 实 
验 研究 更 多 地 了 解 认 知 。 他 搭建 了 一 个 机 器 人 砚 儿 ， 当 你 对 它 微 笑 时 ， 
它 也 对 你 微笑 ， 雇 得 路 人 的 喜爱 。 哈 维尔 研究 了 轻 儿 与 母 杀 的 互动 ， 他 
得 出 的 结论 是 ， 坚 儿 会 尽量 从 母 杀 那里 获得 更 多 的 微 突 ， 同 时 尽量 减少 
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哈 维尔 搭建 的 最 车 名 的 社交 机 器 人 Rubi 看 起 来 像 是 一 个 天 线 宝 宝 
(Teletubby) ， 有 着 丰富 的 面部 表情 ， 眉 毛 能 够 扬 起 表现 出 有 兴趣 ， 相 
机 眼睛 能 够 转 来 转 去 ， 手 臂 也 可 以 抓 取 东西 〈 见 图 12-2) 。 在 加 州 大 学 
蔡 迭 苞 分 校 儿童 早期 教育 中 心 ，18 个 月 大 的 幼儿 通过 Rubi 腹 部 的 平板 与 
CHET HI. 


图 12-1 哈 维 尔 。 莫 维 兰 在 加 州 大 学 圣 迁 或 分 校 的 机 器 人 研讨 会 上 接受 了 《科学 网 
络 》 数 字 论 坛 的 采访 。 哈 维尔 率先 在 教室 里 推出 了 社交 机 器 人 ， 并 为 社交 机 器 人 
Rubi 编写 了 程序 ， 以 引起 18 个 月 大 幼儿 的 注意 。 图 片 来 源 : 罗 杰 。 宾 汉 姆 。 


幼儿 很 难 取悦 ， 他 们 的 注意 力 非常 短暂 。 他 们 玩 几 分 钟 玩具 吏 会 失 
去 兴趣 ， 把 它们 扔 到 一 边 。 他 们 会 如 何 与 Rubi 互 动 呢 ? 为 了 安全 起 见 ， 
Rubi 不 是 按照 工业 强度 打造 的 ， 于 是 第 一 天 ， 男 孩 们 就 扯 掉 了 它 的 用 
膊 。 经 过 一 些 修理 和 加 载 软件 补丁 后 ， 哈 维尔 再 次 进行 了 和 尝试。 这 一 
次 ， 机 器 人 要 执行 的 程序 是 ， 当 手 辟 被 拉 开 时 要 放声 大 尖 。 这 阻止 了 男 
孩 们 的 “其 力 ”行为 ， 并 且 让 女孩 们 争 相 拥抱 Rubi。 这 是 社交 工程 领域 学 
到 的 重要 一 课 。 


幼儿 通过 指向 房间 内 的 物体 (如 时 钟 ) 与 Rubi 玩 页 。 如 果 Rubi 不 能 
在 0.5~1.5 秒 的 时 间 窗 口内 将 视线 移 向 物体 ， 那 么 幼儿 就 会 失去 兴趣 并 走 
开 。 如 果 反 应 太 快 ，Rubi 的 机 械 性 就 太 明 显 了 ; 如 果 反 应 太 慢 ，Rubi 又 
会 让 孩子 们 感到 很 无 聊 。 一 旦 互惠 关系 形成 ， 孩 子 们 就 会 将 Rubi 看 作 是 
一 个 有 感情 的 生命 ， 而 不 是 一 个 玩具 。 当 Rubi 被 带 走 〈 到 维修 店 进行 升 
级 ) 后 ， 孩 子 们 会 感到 不 安 。 他 们 会 被 告知 Rubi 感 到 不 舒服 ， 会 在 家 休 
息 一 天 。 在 一 项 研究 中 ，Rubi 被 要 求教 幼儿 学 习 芬 兰 语 单词 ， 他 们 学 习 


的 速度 和 学 英语 单词 一 样 快 ， 教 他 们 和 学习 一 首 流 行 歌曲 的 效果 束 更 明显 


图 12-2 Rubji 在 教室 里 与 幼儿 们 进行 互动 。Rubi 的 头 可 以 旋转 ， 眼 睛 是 相机 ， 嘴 和 届 
LAT DS ARIA. Rubi 头顶 上 浓密 的 光纤 会 随 着 它 的 心情 而 改变 颜色 。 图 片 来 
之 前 对 将 Rubi 引 入 课 特 环 境 的 顾 碟 之 一 ， 是 教师 可 能 会 担心 目 己 在 
某 一 天 被 机 器 人 取代 。 但 事实 恰恰 相反 : 老师 对 Rubi 表 示 欢 迎 ， 因 为 它 
可 以 作为 一 位 辅助 管理 班级 秩序 的 助手 ， 特 别 是 在 教室 里 有 访客 时 。 一 
个 能 够 彻底 革新 早期 教育 的 实验 是 “ 千 个 Rubi 项 目 ”(thousand Rubi 
project) 。 这 个 想法 是 批量 生产 Rubi， 将 它们 放 在 上 千 个 教室 中 ， 每 天 
通过 互联 网 从 数 千 次 实验 中 收集 数据 。 教 育 研究 的 一 个 问题 是 ， 在 一 所 
学 校 适 用 的 方案 可 能 不 适用 于 另 一 所 学 校 ， 因 为 学 校 之 间 存 在 很 多 差 


异 ， 特 别 是 教师 之 间 的 差异 。“ 千 个 Rubi 项 目 ” 也 许 能 够 考察 许多 关于 如 
何 改进 教育 实践 的 想法 ， 并 且 可 以 探 完 在 各 地 服务 于 不 同 社会 经 济 群体 
的 学 校 之 间 的 差异 。 昌 然 能 够 让 项 目 开展 起 来 的 资源 一 直 没 有 到 位 ， 但 
这 仍然 是 一 个 好 主意 ， 应 该 有 人 来 跟 进 。 


双 腿 站 立 的 机 器 人 很 不 稳定 ， 需 要 一 个 复杂 的 控制 系统 来 防止 它们 
翻 倒 。 而 且 事实 上 ， 砚 儿 需 要 12 个 月 才能 学 会 走路 而 不 会 摔 倒 。 在 第 2 
章 中 已 经 做 过 简短 介绍 的 罗 德 尼 : 布 鲁 殉 斯 〈 见 图 12-3) ， 想 要 打造 能 
够 像 昆 虫 一 样 走 路 的 6 条 腿 机 器 人 。 他 发 明了 一 种 新 型 控制 器 ， 可 以 对 6 
条 腿 的 动作 进行 排序 ， 能 够 让 机 器 人 昱 螂 癌 前 移动 并 保持 稳定 。 他 那 开 
创 性 的 想法 是 ， 让 腿 部 与 环境 进行 的 机 械 交 互 作 用 代替 抽象 的 计划 和 计 
算 。 他 认为 ， 要 让 机 器 人 完成 日 党 任务， 它们 较 高 的 认 知 能 力 应 该 基于 
感官 运动 (sensorimotor) 与 环境 的 相互 作用 ， 而 不 是 抽象 的 推理 。 大 
象 具有 高 度 的 社会 性 ， 有 着 强大 的 记忆 力 ， 并 且 还 是 器 械 天 才 ， 三 但 它 
们 不 会 下 国际 象棋 。 三 1990 年 ， 布 鲁 殉 斯 继续 创立 了 iRobot， 迄 今 为 目 
已 经 卖 掉 了 超过 1000 万 个 Roombas 扫 地 机 器 人 来 清洁 更 多 的 地 板 。 


工业 机 器 人 具有 坚硬 的 关节 和 强大 的 伺服 电机 ， 这 使 得 它们 看 起 来 
和 感觉 起 来 都 很 机 械 化 。2008 年 ， 布 鲁 殉 斯 创立 了 Rethink Robotics 
司 ， 该 公司 设计 出 了 一 个 关节 和 柔韧， 可 以 转动 手 恬 的 机 器 人 Baxter。 它 
的 每 个 手臂 可 以 按 要 求 来 移动 ， 还 会 自行 编程 以 重复 执行 过 的 动作 顺 
序 ， 人 们 不 必 再 编写 一 个 程序 来 移动 Baxter 的 手臂 了 。 
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图 12-3 罗 德 尼 。 布 恒 克 斯 在 观察 机 器 人 Baxter， 它 正 准 备 将 一 个 塞 盖 村 入 桌 上 的 一 
个 洞 中 。 布 鲁 克 斯 是 一 位 连续 创业 者 ， 之 前 创建 了 iRobot， 生 产 了 扫地 机 器 人 
Roombas， 现 在 他 又 创建 了 Rethink， 生 产 Baxter。 图 片 来 源 : 罗 德 尼 。 布 鲁 克 斯 。 
英 维 兰 比 布鲁克 斯 更 进一步 ， 开 发 出 了 一 种 名 为 “Diego San" (EH 
本 制造 ) 的 机 器 人 宝宝 三， 其 电动 机 是 气动 的 (由 气压 驱动 )， 对 比 大 
多 数 工 业 机 器 人 使 用 的 刚性 转 矩 电机 ，Diego San 所 有 的 44 个 关节 都 更 柔 
软 〈 见 图 12-4) 。 制 作 它 们 是 基于 这 样 一 个 灵感 : 当 我 们 拿 起 某 件 东 西 
时 ， 我 们 吴 体 中 的 每 一 块 肌肉 都 会 在 一 定 程度 上 被 牵动 《如 果 我 们 一 次 
只 移动 一 个 关节 ， 看 起 来 就 会 像 机 器 人 ) 。 这 使 我 们 能 够 更 好 地 适应 不 
断 变化 的 负载 情况 以 及 与 世界 的 互动 。 大 脑 可 以 同时 自然 流畅 地 控制 身 
体 中 的 所 有 自由 度 一 一 所 有 关节 和 肌肉 一 一 而 DiegoSan 项 目的 目标 是 找 
出 大 脑 是 怎么 做 到 这 一 点 的 。Diego San 的 脸 上 有 27 个 运动 部 件 ， 可 以 表 
达 各 种 各 样 的 人 类 情感 。 三 机 器 人 宝宝 的 动作 非常 通 真 。 虽 然 哈 维尔 有 
几 个 成 功 的 机 器 人 项 目 ， 但 Diego San 并 不 是 其 中 之 一 。 他 并 不 知道 如 何 
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图 12-4 机 器 人 宝宝 Diego San。 气 压 传 动 装置 让 所 有 关节 都 有 PETA 这 样 就 能 
跟 人 类 握手 了 。 面 部 由 大 卫 。 汉 森 (David Hanson) 和 汉 森 机 器 人 公司 提供 。 关 于 
机 器 人 面部 表情 的 动画 ， 可 以 参考 “Diego lnstalled”， 由 哈 维 尔 。 莫 维 兰 提供 ， 
https://www. youtube. com/watch?v=knRyDcenUc4U/. 


机 器 已 经 会 识别 人 关 面 部 表情 


你 能 想象 当 你 在 iPhone (苹果 手机 〉 上 看 到 股价 暴跌 ，iPhone 问 你 

为 什么 不 高 兴 ， 会 是 怎样 一 种 感觉 吗 ? 你 的 面部 表情 是 情绪 的 窗口 ， 深 

度 学 习 现 在 已 经 可 以 探 进 这 个 窗口 了 。 传 统 上 ， 人 们 认为 认 知 和 情绪 是 
大 脑 两 个 独立 的 功能 。 一 般 认 为 ， 认 知 是 皮层 功能 〈cortical 


function) ， 而 情绪 是 皮层 下 的 功能 (subcortical function) 。 事 实 上 ， 
有 些 皮 层 下 结构 可 以 调节 情绪 状态 ， 比 如 奋 仁 核 Camygdala) 。 当 情绪 
水 平 很 高 ， 特 别 是 感到 灵 ， 惧 的 时 候 ， 查 仁 核 就 会 起 作用 ， 但 这 些 结构 与 
大 脑 皮 层 有 强烈 的 相互 作用 。 例 如 ， 在 社交 互动 中 ， 禁 仁 核 的 参与 会 增 
强人 脑 对 该 事件 的 记忆 。 认 知 和 情绪 是 彼此 交织 的 。 

在 20 世 纪 90 年 代 ， 我 与 加 州 大 学 旧金山 分 校 的 心理 学 家 保罗 . 艾 死 
受 (Paul Ekman) 〈 见 图 12-5) 有 过 合作 。 艾 元 曼 是 世界 著名 的 面部 表 
情 专家 ， 是 美剧 《 别 对 我 撒谎 》 (Lie to Me) 系列 中 卡尔 :莱特 曼 〈Cal 
Lightman) 博士 在 真实 世界 中 的 原型 ， 但 他 本 人 比 剧 中 的 卡尔 要 和 善 很 
多 。 艾 克 曼 曾 去 过 巴布亚 新 几内亚 ， 试 图 了 解 前 工业 时 代 的 文化 是 否 像 
我 们 一 样 ， 能 够 做 出 情绪 化 的 面部 表情 。 他 在 研究 过 的 所 有 人 类 社会 中 
发 现 了 六 种 普遍 的 情感 表达 : PRR. GE ta. TUS. BOW. RAB. 
从 那 以 后 ， 其 他 常见 的 面部 表情 也 被 提取 了 出 来 ， 但 人 们 在 对 这 些 表情 
的 理解 上 并 没有 达成 共识 。 有 些 表 达 ， 如 慌 惧 ， 在 一 些 孤 立 的 社会 中 有 
着 不 同 的 解释 。 

1992 年 ， 艾 元 曼 和 我 组 织 了 一 个 由 美国 国家 科学 基金 会 NSF) 4 
助 的 关于 面部 表情 理解 的 规划 研讨 会 。 三 在 那个 时 期 ， 要 获得 对 面部 表 
情 研究 的 资金 困难 重重 。 我 们 的 研讨 会 将 神经 科学 、 电 子 工 程 和 计算 机 
视觉 等 方面 的 研究 人 员 ， 连 同心 理学 家 聚集 到 了 一 起 ， 为 表情 分 析 领 域 
揭 开 了 新 篇 音 。 这 件 事 对 我 来 说 是 一 个 启示 ， 尽 管 面部 表情 的 分 析 在 科 
学 、 医 学 和 经 济 等 诸多 领域 都 扮演 着 重要 角色 ， 但 其 重要 性 却 一 直 被 基 
金 机 构 所 忽视 。 


图 12-5 1967 年 ， 保 罗 。 艾 克 有 曼 和 巴布亚 新 几内亚 原 住 民 。 他 找到 了 6 种 常见 的 面部 
情感 表达 的 证 据 ， 包 括 快 乐 、 悲 伤 、 愤 怒 、 惊 讶 、 恐 惧 和 厌恶 。 保 罗 曾 为 美剧 《 别 
对 我 撒谎 》 提 供 咨 询 ， 以 保证 每 一 集 的 内 容 有 科学 依据 。 卡 尔 。 莱 特 曼 博士 的 角色 
大 致 上 是 以 艾 克 曼 为 原型 塑造 出 来 的 。 图 片 来 源 : KF + LHF. 

艾 克 曼 开发 了 面部 动作 编码 系统 (Facial Action Coding System, 以 
下 简称 FACS) 来 监控 面部 44 块 肌肉 的 状态 。 由 艾 克 曼 培 训 的 FACS 专 家 
需要 花费 一 个 小 时 来 标记 长 度 为 一 分 钟 的 视频 ， 每 次 标记 一 帧 。 面 部 表 
情 是 动态 的 ， 可 以 延续 若干 秒 ， 但 是 艾 克 曼 发 现 ， 有 些 表 情 只 持续 了 几 
帧 。 这 些 “ 微 表情 ”泄露 了 大 脑 被 抑制 的 情感 状态 ， 常 常 能 说 明 ， 有 时 还 
会 揭示 无 意识 的 情绪 反应 。 例 如 ， 在 婚姻 咨询 环节 中 出 现 的 细微 的 厌恶 
表情 ， 就 是 一 个 预示 婚姻 会 失败 的 可 靠 的 信号 。 三 

在 20 世 纪 90 年 代 ， 我 们 使 用 了 一 些 演员 的 视频 录像 来 训练 反 向 传播 
神经 网 络 ， 对 FACS 进 行 自动 化 。 这 些 训练 有 素 的 演员 可 以 像 艾 克 曼 那 
样 控 制 脸 上 的 每 一 块 肌肉 。1999 年 ， 由 我 的 研究 生 玛丽 安 : 斯 图 尔 特 - 巴 
特 利 特 (Marian =‘ Stewart-Bartlett， 见 图 12-6) 利用 反 向 传播 训练 的 网 


络 ， 在 实验 室 识 别 面部 表情 的 准确 京 达 到 了 96%， 前 提 古 要 具备 完美 的 
照明 ， 周 正 的 面部 角度 ， 以 及 对 视频 进行 手动 时 间 分 割 。 三 这 个 网 络 的 
识别 效果 很 不 错 ， 于 是 1999 年 4 月 5 日 ， 玛 丽 安 和 我 在 贷 安 ' 索 耶 (Diane 
Sawyer) 主持 的 《 早 安 美 国 》 (Good Morning America) 节目 中 向 公众 
展示 了 这 一 成 果 。 在 成 为 加 州 大 学 对 迭 臣 分 校 神经 计算 研究 所 的 一 名 教 
师 后 ， 玛 丽 安 接着 又 开 及 了 计算 机 表情 识别 工具 箱 〈Computer 
Expression Recognition Toolbox， 以 下 简称 CERT) 。 三 随 着 计算 机 的 速 
度 变 得 越 来 越 快 ，CERT 已 经 能 够 进行 实时 分 析 ， 可 以 标记 视频 流 中 不 
WARE A ZR RKT e 

2012 年 ， 玛 丽 安 和 哈 维尔 : 葛 维 兰 将 面部 表情 的 自动 分 析 技 术 商业 
化 ， 创 立 了 一 家 名 为 "Emotient” 的 公司 。 保 罗 . 艾 死 曼 和 我 为 这 家 公司 担 
任 科 学 顾问 。Emotient 开 发 的 深度 学 习 网 络 能 够 以 96% 的 准确 紊 ， 在 各 
种 不 同 的 照明 条 件 下 ， 利 用 非 正 面 面 部 信息 实时 地 对 自然 行为 做 出 判 
断 。 在 Emotient 的 一 个 演示 中 ， 其 网 络 在 几 分 钟 内 就 检测 到 唐纳德 . 特 明 
if (Donald Trump) 在 共和 党 的 首 场 初 选 辩论 中 ， 对 一 个 焦点 小 组 三 的 
情绪 影响 最 大 。 相 比 之 下 ， 民 意 调查 人 员 花 了 数 天 时 间 才 得 出 了 同样 的 
结论 ， 专 家 们 更 是 在 几 个 月 之 后 才 认 识 到 ， 和 情感 投入 是 争取 到 选民 的 关 
键 。 焦 点 小 组 中 最 强烈 的 面部 表情 是 愉 避 ， 其 次 是 娩 慢 。 此 外 ， 
Emotient 的 深度 学 习 网 络 在 尼尔森 收视 率 (Nielsenratings 〉 调查 结果 发 
布 前 的 几 个 月 ， 就 预测 到 了 哪些 电视 剧 将 大 热 。Emotient 于 2016 年 1 月 被 
苹果 公司 收购 ， 玛 丽 安 和 哈 维 尔 现 在 均 在 苹果 公司 任职 。 


图 12-6 正在 演示 面部 表情 分 析 技 术 的 玛丽 安 。 斯 图 尔 特 - 巴 特 利 特 。 时 间 轴 上 显示 
的 是 深度 学 习 网 络 的 输出 ， 正 在 识别 面部 表情 中 快乐 、 悲 伤 、 惊 讶 、 恐 惧 、 愤 怒 和 
厌恶 的 情绪 。 图 片 来 源 : 玛丽 实 。 斯 图 尔 特 -巴特 利 特 ，Robert Wright/LDV Vision 


Summit 2015 。 
在 不 久 的 将 来 ， 你 的 iPhone 可 能 不 仅 会 问 你 为 什么 不 高 兴 ， 还 可 能 
帮助 你 冷静 下 来 。 


新 技术 改变 教育 方式 


13 年 前 ， 在 温哥华 举行 的 2005 年 NIPS 大 会 上 ， 我 和 加 州 大 学 圣迭戈 
分 校 计 算 机 科学 与 工程 系 的 同事 加 里 . 科 特 雷 尔 〈Gary Cottrell) 在 一 起 
吃 早 餐 。 加 里 属于 20 世 纪 80 年 代 PDP 团 队 最 初 的 一 批 成 员 ， 也 是 PDP 团 
队 仍 留 在 加 州 大 学 圣迭戈 分 校 为 数 不 多 的 几 人 之 一 。 他 是 20 世 纪 60 年 代 
最 后 几 个 仍 在 坚持 神经 科学 研究 团体 中 的 一 员 ， 留 着 马尾 办 和 灰白 的 胡 
有 顷 。 他 读 到 了 NSEF 发 表 的 一 项 声明 ， 要 求 为 “学 习 科 学 中 心 ”(Science of 


Learning Centers) 提供 提案 。 其 中 让 他 感 兴趣 的 内 容 ， 是 连续 5 年 每 年 
500 万 美元 的 预算 ， 而 且 还 可 以 再 延长 5 年 。 他 想 提 交 一 份 项 目 申请 ， 并 
询问 我 是 否 愿 意 帮 忙 。 他 当时 说 ， 如 果 成 功 了 ， 他 就 不 用 再 写 别 的 基金 
申请 了 。 我 告诉 他 说 ， 如 果 成 功 的话 ， 这 项 经 络 能 让 他 终 刁 从 事 这 一 事 
业 了 。 他 笑 了 起 来 ， 之 后 我 们 开始 了 合作 。 


最 终 我 们 的 申请 被 批准 了 ， 如 我 所 料 ， 尽 管 每 年 提供 300 页 的 年 度 
报告 很 让 人 崩溃， 但 取得 的 科学 成 果 非 党 惊人。 我们 的 时 间 动 态 学 习 中 
ty (Temporal Dynamics of Learning Center， 以 下 简称 TDLC) KAX HK 
全 球 18 个 机 构 的 100 多 名 研究 人 员 。 在 由 NSF 资 助 的 6 个 学 习 科 学 中 心 
里 ， 我 们 这 个 是 最 以 神经 科学 和 工程 为 导 同 的 ， 我 们 将 机 器 学 习 的 最 新 
进展 纳入 了 这 些 项 目 中 ( 见 图 12-7) 。 三 Rubi 和 CERT 是 由 TDLC 资 助 
的 两 个 项 目 。 我 们 还 有 一 个 移动 脑 电 图 实验 室 ， 让 被 试 者 可 以 在 虚拟 环 
境 中 自由 漫游 ， 同 时 记录 他 们 的 脑 电 波 。 在 大 多 数 脑 电 图 实验 室 中 ， 被 
试 者 必须 坐 着 不 动 ， 眼 睛 都 不 能 瞬 ， 以 避免 产生 假象 。 我 们 使 用 SICA 
来 抵消 运动 假象 ， 让 我 们 能 够 观察 被 试 者 主动 探索 环境 ， 与 其 他 人 互动 
时 的 大 脑 活动 。 


图 12-7 新 的 学 习 科 学 包括 机 器 学 习 和 神经 科学 ， 以 及 来 自 心 理学 和 教育 的 见解 。 图 
片 来 源 : Meltzoff , Kuhl,Movellan, and Sejnowski, “Foundations for a New 
Science of Learning, ”图 1。 


以 下 是 TDLC 研 究 人 员 开 展 的 众多 项 目 中 的 一 部 分 。 


罗 格 斯 分 子 和 行为 神经 科学 中 心 (Center for Molecular and 
Behavioral Neuroscience at Rutgers) 的 芯 普 利 :本 纳 斯 奇 (April 
Benasich) 开发 了 一 项 测试 ， 可 以 根据 宝宝 的 听觉 感知 时 间 来 预测 砚 儿 
是 否 会 在 语言 习 得 和 学 习 能 力 上 存在 缺陷 ; 她 指出 ， 这 些 缺 陷 可 以 通过 
目 适应 地 控制 声 普 出 现 的 时 间 和 奖励 反馈 来 纠正 ， 以 便 宇 宝 能 够 及 育 出 
正常 的 听力 、 语 言 和 学 习 能 力 。 三 这 些 结果 所 针对 的 实验 对 象 年 龄 跨度 
从 3 个 月 到 5 岁 。 即 使 正常 发 育 的 婴儿 也 会 从 互动 环境 中 受 巷 。 艾 普 利 于 
2006 年 创立 了 AAB Research LLC， 让 快速 听觉 处 理 技术 (rapid auditory 
processing technology， 人 简称 RAPT) 进入 普通 家 许 ， 以 提高 观 儿 的 学 习 
能 力 。 


玛丽 安 :斯 图 尔 特 - 巴 特 利 符 和 哈 维 尔 : 英 维 兰 使 用 机 器 学 习 目 动 登记 
学 生 的 面部 表情 ，" 三 当 学 生 看 起 来 很 泪 背 ， 似 乎 不 太 理 解 授 课 内 容 时 ， 
教师 可 以 收 到 提醒 并 采取 措施 。 利 用 深度 学 习 技 术 ， 这 一 过 程 如 今 可 以 
自动 且 准 确 地 同时 记录 班级 中 每 个 孩子 的 表情 信息 。 在 市 场 营 销 、 精 神 
病 学 和 法 医学 等 领域 ， 还 有 很 多 的 面部 表情 分 析 应 用 有 待 开 发 。 

加 州 大 学 圣迭戈 分 校 的 哈 罗 德 - 帕 施 勒 (Harold — Pashler) 和 科 罗 拉 
多 大 学 博 尔 德 分 校 的 迈克 尔 : 英 泽 尔 (Michael Mozer) 研究 了 12 年 级 的 
学 生 在 数 年 内 的 学 习 表现 ， 以 扩充 先前 针对 大 学 生 为 期 数 月 的 研究 。 研 
完结 果 表 明 ， 个 性 化 的 时 间 分 散 式 复习 比 短期 的 填 鸭 式 复习 更 能 改善 对 
学 习 材料 的 长 期 记忆 。" 三 他 们 表示 ， 当 学 习 材 料 需要 在 学 生 的 记忆 中 停 
留 较 长 时 间 时 ， 学 习 的 最 佳 间隔 时 间 最 好 设 得 长 一 些 。 他 们 在 语言 课程 
中 为 学 生 们 制定 了 最 佳 复习 时 间 表 ， 并 帮助 他 们 取得 了 优异 的 成 绩 。 

TDLC 的 博士 后 研究 员 贝 丝 : 罗 戈 夫 斯 其 (Beth Rogowsky) 、 罗 格 

斯 大 学 的 保 拉 : 塔 拉 尔 (Paula Tallal〉 和 范 德 堡 大 学 的 芭 芭 拉 : 卡 尔 霍 因 
(Barbara Calhoun) 表明 ， 在 使 用 口头 或 书面 材料 的 学 习 方法 之 间 没 有 
统计 学 兰 异 ， 而 且 ， 无 论 是 即时 理解 还 是 延迟 理解 ， 偶 好 的 学 习 方式 和 
教学 方法 之 间 都 不 存在 联系 。 三 学 生 使 用 自己 更 偏好 的 方式 学 习 不 会 带 
来 任何 积极 的 效果 ， 这 也 就 意味 着 大 型 企业 宣传 的 针对 个 人 学 习 方 式 的 
培训 和 测试 材料 ， 并 不 会 提升 课堂 的 学 习 效 果 。 

保 拉 : 塔 拉 尔 在 2014 年 局 动 的 1500 万 美元 的 “全 球 学 习 X 奖 ”(Global 
Learning X-Prize) PARTE SHAVER. FARRAR Glo, FLA te 
开发 开源 代码 和 可 扩展 软件 ， 使 发 展 中 国家 的 儿童 能 够 在 18 个 月 内 掌握 
基本 的 阅读 、 写 作 和 算术 技能 。 为 “全 球 学 习 X 奖 ”所 做 研究 的 积极 影 
啊 ， 将 在 未 来 数 十 年 内 在 全 世界 引起 回 啊 。 

TDLC 的 科学 总 监 安 德 里 亚 : 千 叶 (Andrea Chiba) 在 2014 年 上 海 “学 
习 科学 国际 大 会 "上 介绍 了 关于 所 有 的 学 习 行 为 如 何 改变 大 脑 结构 的 研 
究 。" 宇 这 令 许 多 代表 都 感到 惊讶 ， 他 们 一 直 相 信 儿 童 来 到 世界 上 时 就 具 
备 了 一 定 的 潜力 ， 对 那些 能 力 不 足 或 者 年 龄 过 大 的 学 习 者 来 说， 教育 只 


是 一 种 浪费 。 世 界 各 地 仍然 存在 着 巨大 的 人 类 潜力 有 待 挖掘 。 

我 们 发 现 教 育 中 最 大 的 问题 不 是 科学 方面 的 ， 而 是 来 自 社 会 和 文 
化 。 美 国有 13500 个 学 区 ， 每 个 学 区 都 有 自己 的 学 校 董事 会 ， 负 责 决 定 
课程 、 教 师资 格 和 最 佳 实践 ， 需 要 数 十 年 才能 实现 这 些 目 标 ， 并 有 针对 
性 地 处 理 这 些 问题 。 在 教师 实施 教学 之 前 ， 他 们 还 必须 管理 教室 秩序 ， 
这 对 于 低 年 级 和 市 中 心 的 学 校 来 说 尤其 具有 挑战 性 。 提 出 要 求 的 家 长 们 
可 能 不 会 意识 到 教学 资源 的 匮乏 导致 了 教师 中 的 职业 倦 合 现象 频 发 ， 而 
教师 工会 的 影响 也 难 辞 其 竺 ， 后 者 往往 阻碍 了 日 积 月 累 的 努力 。 

教学 从 根本 上 来 说 是 一 项 劳动 密集 型 活动 。 最 优质 和 最 有 效 的 教学 
方式 是 让 经 验 丰 富 的 成 人 教师 和 学 生 之 间 进 行 一 对 一 交流 。" 我 们 背负 
着 一 个 专 为 大 众 教育 而 设计 的 流水 线 系统 ， 对 学 生 按 年 龄 进行 划分 ， 教 
师 在 大 班 里 年 复 一 年 地 传授 相同 的 课程 。 这 可 能 是 一 种 生产 汽车 的 好 方 
法 ， 在 劳动 力 只 接受 基本 教育 就 能 满足 社会 需求 的 年 代 ， 这 样 的 方法 还 
算 行 得 通 。 但 是 当 工 作 疯 位 需要 更 高 水 平 的 培训 和 终身 学 习 来 更 新 工作 
技能 时 ， 这 个 系统 就 落伍 了 。 诚 然 ， 作 为 成 年 人 ， 回 到 学 校 可 能 是 痛 音 
和 不 切实 际 的 。 我 们 正在 经 历 的 信息 革命 已 经 超越 了 劳动 力 世 代 更 替 的 
时 间 尺 度 。 幸 运 的 是 ， 出 现在 互联 网 上 的 新 技术 可 能 会 改变 我 们 的 学 习 
方式 。 学 习 科 学 中 心 于 2006 年 创立 时 ， 我 们 并 没有 预见 到 ， 互 联网 正在 
重 构 我 们 的 学 习 版 图 。 


成 为 更 好 的 学 习 者 


蔡 课 在 2011 年 突然 流行 起 来 ，《 纽 约 时 报 》 发 表 了 一 篇 热门 文 前 ， 
提 到 了 一 门 大 受 欢迎 的 斯 坦 福 大 学 人 工 智能 在 线 课 程 。 三 大 量 的 学 生 参 
加 芭 课 ， 他 们 在 互联 网 上 这 一 前 所 未 有 的 学 习 行 为 ， 在 全 世界 引起 了 广 
泛 的 关注 。 几 乎 在 一 夜 之 间 ， 很 多 新 公司 获得 了 融资 ， 这 些 公司 专注 于 
开发 以 及 免费 在 线 发 布 世界 上 一 些 最 优秀 的 教育 者 的 讲座 。 只 要 能 连 上 
网 ， 人 们 就 能 随时 随地 观看 这 些 讲座 。 除 了 讲座 之 外 ， 课 程 内 容 还 包括 


测验 、 考 试 、 供 学 习 者 交流 的 论坛 、 助 教 辅导 ， 以 及 自发 组 织 的 本 
地 “见面 会 "， 方 便 学 生 在 非 正式 的 环境 中 讨论 课程 内 容 。 莫 课 的 受众 面 
己 经 大 大 增加 了 一 一 2015 年 ,，“ 葵 诬 和 人 ”的 数量 翻 了 一 番 ， 从 估算 的 1700 
万 增加 到 了 3500 多 万 。 莫 课 绕 开 了 现 有 教育 体系 中 的 所 有 限制 因素 。 


2013 年 1 月 ， 在 加 州 大 学 尔 湾 分 校 由 美国 国家 科学 院 主办 的 一 次 会 
议 上 ， 我 过 到 了 区 区 拉 : 奥 克利。 尽管 她 读书 的 时 候 在 数学 和 科学 方面 
表现 欠 佳 ， 但 她 现在 是 位 于 密 葡 根 州 奥 本 山 和 罗切斯特 山 市 的 奥 元 兰 大 
学 的 一 名 电子 工程 学 教授 。 她 是 曾 主 修 人 文科 学 专业 的 美国 陆 苗 上 尉 ， 
回 到 学 校 之 前 ， 她 在 白 令 海 的 拖网 渔船 上 担任 俄语 翻译 。 后 来 她 元 服 了 
自己 在 数学 方面 的 心理 障碍 ， 获 得 了 电子 工程 博士 学 位 。 在 会 议 的 晚宴 
上 ， 我 发 现 色 色拉 和 我 在 学 习 方面 有 着 相似 的 看 法 ， 她 当时 正在 写 一 本 
书 ， 书 名 是 《学 习 之 道 》 (A Mind for Numbers: How to Excel at Math 
and Science) 。 于 是 我 邀请 她 到 加 州 大 学 对 过 戈 分 校 为 高 中 学 生 和 老师 
们 举办 一 次 TDLC 讲 座 。 


芭 芭 拉 受 到 了 学 生 们 的 热烈 欢迎 ， 很 明显 她 是 一 位 庙 有 天 赋 的 老 
师 。 她 的 方法 和 实用 性 见解 源 于 我 们 对 大 脑 的 了 解 ， 所 以 我 们 联手 为 
Coursera 开 发 了 一 门 梭 课 ， 名 为 “学 会 如 何 学 习 : 帮助 你 掌握 复杂 学 科 的 
强大 智力 工具 ”( 见 图 12-8; https://www.coursera.org/learn/learning-how- 
to-leam/) ， 于 2014 年 8 月 推出 。 它 目前 是 世界 上 最 受 欢迎 的 芭 课 ， 在 头 
四 年 里 注册 的 学 习 者 超过 300 万 ， 并 且 每 天 还 会 吸引 1000 个 来 自 200 多 个 
国家 的 新 学 员 。“ 学 会 如 何 学 习 ” 根 据 我 们 对 大 脑 学 习 方式 的 了 解 ， 为 你 
提供 了 成 为 更 好 学 习 者 所 需 的 工具 。 我 们 学 习 者 的 反馈 非常 积极 ， 于 是 
我 们 又 开发 了 第 二 个 名 为 “思维 转换 ”(Mindshift〉 的 聚 课 ， 以 帮助 那些 
想 要 转业 或 改变 生活 方式 的 人 。 这 两 门 花 课 课程 的 资料 都 可 以 在 网 络 上 
免费 获取 。 


Learning 


How to Learn 
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课程 ， 使 其 成 为 全 球 最 受 欢 迎 的 互联 网 课程 。 图 片 来 源 : CER. RA. 

“学 会 如 何 学 习 ” 这 一 读 程 ， 就 如 何 成 为 更 好 的 学 习 者 ， 如 何 处 理 测 
试 焦虑 ， 如 何 避 免 拖 延 ， 以 及 我 们 对 大 脑 怎 样 学 习 的 认识 等 话题 提供 了 
实用 性 的 建议 。 这 是 一 门 为 期 一 个 月 的 免费 读 程 ， 由 长 度 为 5~10 分 钟 的 
视频 剪辑 、 小 测验 和 综合 测试 组 成 ， 现 已 被 翻译 成 20 多 种 语言 。 课 程 的 
基石 之 一 ， 束 十 当 你 正在 做 别 的 事情 时 ， 你 的 大 脑 可 以 在 潜意识 中 帮 你 
ERETTE. A PEASE (Henri Poincaré) 是 19 世 纪 一 位 杰出 的 数 
学 家 ， 他 曾经 描述 自己 如 何 最 终 解决 了 一 个 数学 难题 。 当 时 他 已 经 紧张 
地 工作 了 好 几 个 星期 ， 但 仍然 一 无 所 获 。 于 是 他 度假 去 了 。 当 他 在 法 国 
南部 路 上 一 辆 公共 汽车 时 ， 问 题 的 解雇 方案 突然 正 出 现在 了 他 的 脑海 
中 ， 他 的 大 脑 中 有 一 部 分 区 域 在 他 圣 受 假期 的 时 候 仍 然 在 处 理 这 个 问 
题 。 他 知道 目 己 找 到 了 证 明 问 题 的 正确 方法 ， 并 在 返回 巴黎 时 完成 了 
它 。 他 之 前 对 这 个 问题 的 深入 研究 已 经 使 他 的 大 脑 做 好 了 充分 的 准备 ， 
这 样 他 的 潜意识 就 可 以 在 他 放松 的 时 候 继续 处 理 这 个 问题 。 这 两 个 阶段 
对 创造 力 而 言 同等 重要 。 


令 人 恢 讶 的 是 ， 即 使 在 睡 党 的 时 候 ， 你 的 大 脑 也 会 在 你 坚 不 知 情 的 


情况 下 解决 问题 。 但 是 ， 只 有 在 你 入 睡 之 前 仍 专 注 于 解决 问题 的 前 提 

下 ， 大 脑 才能 做 到 这 一 点 。 于 是 你 早上 醒 来 的 时 候 ， 一 种 新 的 见解 就 会 
从 脑海 中 中 出来， 帮助 你 解决 问题 《尽管 这 种 情况 不 会 经 间 发 生 ) 。 在 
休假 或 入 睡 前 的 高 强度 思考 ， 对 激活 你 的 大 脑 非常 重要 ;否则 ， 它 束 有 
可 能 去 处 理 其 他 问题 了 。 这 种 方式 并 不 限于 数学 或 科学 问题 ， 如 果 你 最 
近 在 思考 一 个 社区 问题 ， 你 的 大 脑 融会 像 解 决 数学 和 科学 问题 一 样 努 力 
解决 它 。 

“学 会 如 何 学 习 ” 最 令 我 们 感到 欣慰 的 成 果 之 一 ， 就 是 收 到 了 来 自 快 
乐 学 习 者 的 信件 ， 感 谢 我 们 为 他 们 提供 了 最 好 的 谍 程 ， 或 者 这 门 读 如 何 
影响 了 他 们 的 职业 选择 。 三 教师 也 写 信 给 我 们 ， 提 到 他 们 正在 将 “学 会 
如 何 学 习 ” 这 门 课 的 经 验 融入 自己 的 课堂 中 。 


我 们 最 初 的 目标 是 教授 高 中 生 和 大 学 生 “ 学 会 如 何 学 习 ”， 但 后 来 发 
现 这 些 人 的 比例 不 到 学 习 这 门 课程 总 人 数 的 1%。 因 为 学 校 一 直 以 来 都 
被 要 求 以 “共同 核心 ”(Common Core) 测试 为 目标 进行 教学 ， 他 们 没 时 
间 教 学 生 如 何 学 习 ， 而 后 者 往往 对 学 生 们 的 学 业 更 有 帮助 。 要 求 各 个 学 
区 都 采用 “学 会 如 何 学 习 ” 的 教学 模式 将 是 一 个 艰难 的 任务 ， 毕 竟 学 校 的 
运营 预算 是 有 限 的 。 学 区 也 不 打算 修改 他 们 的 课程 ， 把 “学 会 如 何 学 
习 ” 纳 入 大 规模 的 教学 。 任 何 大 范围 的 尝试 都 涉及 课程 表 的 调整 、 教 师 
再 培训 和 新 教材 的 开发 ， 这 个 过 程 相当 的 费时 费力 。 但 不 论 如 何 ， 我 们 
都 需要 12 岁 的 孩子 在 进入 高 中 前 接触 到 这 项 课程 。 芭 芭 拉 和 我 针对 这 群 
读者 写 了 一 本 书 ， 希 望 这 些 年 轻 的 学 生 在 进入 会 频繁 过 到 数学 难题 的 中 
学 时 期 之 前 ， 就 能 接触 到 我 们 的 技巧 。 三 


与 学 校 课程 “要 么 太 多 ， 要 么 没有 ”的 学 习 模 式 不 同 ， 蔡 课 更 像 是 你 
随时 可 以 挑选 和 阅读 的 书 : 学 习 者 们 更 倾向 于 “放养 式 ” 的 学 习 方 法 ， 有 
针对 性 地 选择 符合 他 们 迫切 需求 的 课程 。 双 课 原本 被 认为 是 传统 教室 的 
蔡 代 品 ， 现 在 它 在 教育 领域 占据 了 一 个 互补 性 的 位 置 ， 这 与 其 他 教学 场 
所 不 同 。 它 以 独特 的 方式 满足 了 学 习 者 的 需求 ， 而 传统 教育 方式 往往 做 
不 到 这 一 点 。 例 如 ， 蔡 课 已 经 被 翻转 课堂 (flipped classes) 这 一 教育 方 


式 所 采纳 ， 学 生 们 可 以 在 方便 的 课余 时 间 观 看 选 定 的 讲座 ， 老 师 则 会 针 
对 谍 程 内 容 在 读 蔡 上 引导 学 生 们 进行 讨论 。 我 们 的 教育 体系 是 为 工业 时 
代 设 计 的 ， 学 校 所 传授 的 知识 曾经 是 你 今后 维持 工作 ， 以 及 作为 一 名 有 
生产 力 的 公民 所 需 的 基础 知识 。 然 而 现在 ， 学 生 刚 一 毕业 ， 学 校 传授 的 
那些 知识 融 已 经 过 时 了 。 和 又 谍 直 接 进 入 家 寿 ， 是 教育 系统 的 最 后 一 环 。 
对 Coursera 进 行 的 人 口 统计 表明 ， 大 多 数 在 线 学 习 者 的 年 龄 都 在 25~35 多 
之 间 ， 他 们 当中 超过 一 半 的 人 接受 过 大 学 教育 。 这 些 都 是 在 工作 中 需要 
新 技能 ， 并 在 网 上 进行 自学 的 年 轻 人 。 我 们 的 教育 系统 需要 更 多 根本 性 
的 改变 ， 让 我 们 的 大 脑 能 够 适应 在 经 济 信息 领域 中 快速 扩张 的 岗位 技能 
需求 。 例 如 ， 通 过 互联 网 收集 信息 需要 一 些 判断 力 和 基本 技能 ， 即 能 够 
制定 合适 的 搜索 条 件 ， 并 疆 别 错误 的 搜索 路 径 。 可 惜 的 是 ， 学 校 似乎 没 
有 时 间 教 授 基 本 的 互联 网 操作 技能 ， 即 使 学 生 们 能 够 从 学 习 如 何 积极 寻 
求 信 息 ， 而 不 是 被 动 接受 课程 中 受益 。 

优 达 学 城 〈Udacity) 是 由 因 上 自动 萄 驶 汽车 而 名 声 大 品 的 塞 巴 斯 带 安 
` 特 隆 创 立 的 男 一 家 制作 花 课 的 教育 机 构 。 除 了 提供 免费 课程 外 ， 优 达 
学 城 还 与 希望 提升 自身 员工 技能 的 公司 开展 了 合作 。 优 达 学 城 打 造 了 符 
合 公司 需求 的 蔡 读 ， 员 工 们 也 有 动力 去 学 习 这 些 课程 。 对 于 雇主 、 员 工 
和 优 达 学 城 来 说 ， 这 是 共 遍 。 优 达 学 城 也 提供 了 一 系列 专项 课程 ， 比 如 
目 动 驾驶 汽车 技术 《费用 为 800 美 元 ) ， 学 员 学 成 之 后 可 以 获得 纳米 学 
位 (nanodegree) ， 如 果 在 6 个 月 内 找 不 到 工作 还 能 收 到 全 额 退 款 。 三 
三 传统 学 校 之 外 的 教育 机 构 发 展 迅 速 ， 莫 课 可 以 为 终身 学 习 提 供 各 种 解 
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他 人 的 杀 吴 经 历 ， 并 使 用 早期 的 案例 〈 包 括 我 的 ) 来 前 明 ， 当 你 想 以 某 
种 方式 改变 你 的 生活 时 可 能 会 面 对 的 各 种 难题 。 就 我 而 言 ， 我 是 从 物理 


学 转 到 了 神经 生物 学 领域 ， 但 在 另 一 个 案例 中 ， 一 位 成 功 的 音乐 会 独奏 
家 放弃 了 他 的 职业 生涯 ， 转 而 成 为 一 名 医生 。 转 行 这 一 现象 已 经 变 得 越 
KRF, “思维 转换 ”的 诬 程 设计 上 则 在 降低 该 过 程 的 难度 。 该 门 课 程 现 
在 在 世界 上 最 受 欢迎 的 茶 诬 中 排名 第 三 。 

为 一 种 成 为 更 好 的 学 习 者 的 方式 ， 是 利用 交互 式 电脑 游戏 。 类 似 
Lumosity 这 样 的 公司 提供 了 在 线 游戏 ， 声 称 可 以 提高 玩家 的 记忆 力 和 注 
意 力 。 问 题 是 ， 文 持 这 种 说 法 的 研究 往往 凤毛麟角 ， 或 者 质量 不 高 ， 特 
别 是 在 将 培训 转移 到 实际 任务 方面 。 但 是 ， 这 一 切 都 还 处 于 早期 阶段 ， 
更 出 色 的 研究 正 开 始 帮 助 我 们 辨别 有 效 和 无 效 的 方法 。 结 果 往 往 令 人 大 
开眼 界 ， 甚 全 有 悖 直 和 党 。 


训练 你 的 大 脑 


在 广泛 改善 认 知 功能 方面 最 有 效 的 视频 游戏 是 那些 奶 逐 僵尸 ， 在 战 
争 中 杀 死 坏人 ， 以 及 极速 赛车 之 类 的 游戏 。 日 内 瓦 大 学 的 达 基 妮 : 世 菲 
AM (Daphne Bavelier) 表示 ， 玩 《荣誉 勋章 : RAZ) (Medal of 
Honor: Allied Assault) 等 第 一 人 称 视角 的 射击 游戏 改善 了 人 们 的 感知 、 
注意 力 和 认 知 能 力 ， 尤 其 是 视觉 、 多 任务 处 理 和 任务 转换 ， 并 且 引 导 他 
们 更 快 地 制定 出 决策 。' 忆 她 总 结 说 ， 玩 这 类 射击 游戏 可 能 会 让 年 长 者 的 
大 脑 反 应 与 年 轻 人 的 一 样 快 (对 于 任何 上 了 年 纪 的 人 来 说 部 是 好 消 
A 。 但 是 一 些 射击 游戏 也 可 能 会 有 损 长 期 记忆 。 三 每 款 游 戏 都 有 不 同 
的 优点 和 缺点 ， 需 要 单独 进行 分 析 。 


加 州 大 学 旧金山 分 校 的 亚当 : 格 陡 雷 CAdam Gazzaley) 定制 f — 3X 
叫 作 NeuroRacer 的 三 维 视 频 游 戏 ， 能 够 提高 你 的 多 任务 处 理 能 力 。 有 研 
完 表明 ， 大 脑 中 神经 调节 剂 的 活动 对 于 注意 力 、 学 习 和 记忆 有 看 重要 的 
作用 。 三 在 NeuroRacer 中 ， 玩 家 沿 着 晓 蜂 崎 屿 的 道路 驾驶 汽车 ， 同 时 还 
要 留意 随机 弹出 的 各 种 标志 。 这 束 要 求 玩家 调用 多 种 认 知 技能 ， 例 如 注 
意 力 和 任务 切换 能 力 ， 进 行 多 任务 处 理 。 在 测试 NeuroRacer 时 ， 亚 当 和 


同事 们 发 现 ， 在 经 过 训练 以 后 ， 被 试 者 的 这 些 技能 得 到 了 显著 提高 ， 并 
在 工作 记忆 和 持续 关注 方面 达到 了 较 高 的 水 平 ， 然 而 这 些 并 不 属于 训练 
的 一 部 分 。 此 外 ， 他 们 的 表现 还 优 于 未 经 训练 的 20 罗 年 轻 人 ， 并 且 在 中 
止 训练 的 6 个 月 后 ， 这 些 能 力 依然 没有 消退 。 .三 NeuroRacer 目 前 正在 被 
用 于 临床 试验 ， 为 患 有 注意 力 缺 陷 和 记忆 障碍 的 患者 提供 治疗 。 

1997 年 ， 尚 在 罗 格 斯 的 保 拉 : 塔 拉 尔 向 在 加 州 大 学 旧金山 分 校 的 
迈克 尔 ' 梅 泽 尼 奇 (Michael Merzenich) 联合 创建 了 一 家 名 为 “Scientic 
Learning” 的 公司 ， 为 患 有 语言 和 阅读 障碍 (如 失 读 症 〉 的 儿童 提供 大 
助 。 语 音 理解 取决 于 能 人 否 捕捉 到 快速 的 声学 转换 。 例 如 ， 听 
到 “ba”、 “ga" 或 “da" 之 间 的 差异 取 诀 于 音节 开头 的 坚 秒 范围 内 的 时 间 差 
寞 。 无 法 检测 到 这 些 时 间 差 异 的 孩子 在 学 习 中 会 处 于 务 势 ， 因 为 他 们 无 
法 分 辨 包含 这 些 声音 的 词汇 。 要 学 习 阅 读 ， 孩 子 们 必须 能 够 识别 和 区 分 
单词 中 字母 代表 的 简短 声音 。 塔 拉 尔 和 梅 泽 尼 奇 开发 了 被 称 为 “Fast 
ForWord” 的 一 系列 计算 机 游戏 ， 它 首先 通过 在 音节 、 单 词 和 人 句子 中 夸大 
声学 时 差 来 提高 孩子 的 听觉 判断 、 语 言 和 阅读 理解 能 力 。 随 看 孩子 们 在 
各 种 语言 和 阅读 水 平 上 的 提高 ， 这 种 时 间 差 异 会 被 缩短 。 Fast 
ForWord 在 教育 游戏 的 同类 产品 中 得 到 了 很 高 的 评价 ， 有 6000 所 学 校 和 
超过 250 万 名 儿童 使 用 过 该 系列 。 它 们 也 在 超过 55 个 国家 被 用 来 帮助 孩 
子 学 习 英 语 这 门 第 二 语言 。 梅 泽 尼 奇 后 来 义 开发 了 
BrainHQ Chttps://www.brainhg.com) ， 这 是 一 款 基 于 相似 科学 原理 的 游 
戏 ， 则 在 减 绥 老 年 人 的 认 知 衰退 。 

你 还 可 以 通过 锻炼 大 脑 来 提高 运动 技能 。 加 州 大 学 河 演 分 校 的 亚 伦 
-3€7X (Aaron Seitz) 开发 了 一 个 能 够 改善 视觉 感知 和 反应 时 间 的 计算 机 
程序 。 在 使 用 这 个 程序 后 ， 棒 球 队 队 员 普 过 反映 视力 变 得 更 好 了 ， 被 三 
振 出 局 的 次 数 变 少 了 ， 还 创造 出 了 更 多 跑 垒 ， 并 在 赛季 的 54 场 比赛 中 多 
赢得 了 4~5 场 比赛 。 三 赛 茨 开发 了 一 款 名 为 “UltimEyes” 的 廉价 应 用 程 
序 ， 将 他 的 研究 成 末 对 公众 开放 。 不 过 联邦 贸易 委员 会 已 经 停止 了 这 球 
游戏 的 传播 ， 直 到 更 多 的 研究 能 进一步 证 实 他 的 说 法 。 三 


在 玩 考 验 反 应 时 间 的 游戏 时 ， 茶 些 认 知 撤 能 上 的 提高 倾 问 于 转移 到 
其 他 认 知 技能 上 。 但 在 玩 许 多 其 他 特定 领域 游戏 ， 如 记忆 游戏 时 ， 这 种 
转移 并 不 存在 。 虽 然 我 们 设计 的 交互 式 视 频 游戏 正在 变 得 越 来 越 好 ， 能 
够 改善 我 们 的 大 脑 功能 ， 增 加 游戏 的 趣味 性 ， 还 能 制 成 应 用 程序 ， 但 这 
种 转移 发 生 的 条 件 仍 然 有 待 研 究 。 全 球 范围 内 认 知 改善 的 潜力 不 可 估 


里 。 


智能 商业 


在 2015 年 NIPS 大 会 开幕 式 上 ， 我 穿着 全 美 运 动 汽 车 竞赛 协会 
(NASCAR) 风格 的 夹克 欢迎 与 会 者 ， 上 面 贴 着 我 们 所 有 42 个 赞助 商 的 
商标 〈( 见 图 12-9)〉 。 在 巴塞 罗 那 举行 的 2016 年 NIPS 大 会 上 上， 赞助 商 有 65 
家 ， 一 件 夹克 上 已 经 放 不 下 了 。 而 到 了 2017 年 ， 多 达 93 家 赞助 商 支 持 了 
在 长 滩 举 行 的 NIPS 大 会 。 这 种 爆炸 性 的 增长 迟早 会 结束 ， 但 它 在 社会 上 
的 回响 可 能 会 持续 数 十 年 。 这 些 赞助 公司 派 遗 招聘 人 员 参 加 NIPS 大 会 ， 
渴望 聘用 市 场 上 缺乏 的 优秀 研究 人 员 。 我 的 许多 同事 已 经 加 入 了 谷歌 、 
微软 、 亚 蕊 还 、 苹 果 、Facebook、 百 度 和 其 他 许多 初创 公司 。 它 们 还 从 
大 学 里 抢夺 人 才 。 据 寒 巴 斯 带 安 : 特 隆 估计 ， 当 一 家 像 Otto 或 Cruise 这 样 
的 自动 驾驶 初创 公司 被 一 家 大 公司 收购 时 ， 相 当 于 在 每 个 机 器 学 习 专家 
身上 都 花费 了 1000 万 美元 。 三 


2013 年 ， 谷 歌 收 购 了 杰 弗 里 :学 顿 的 公司 DNNresearch， 当 时 这 家 公 
Fl Fi t Rute ee ee KE BE ele Se. ARE eT ee 
了 谷歌 的 员工 。 他 现在 可 以 获得 比 他 曾 在 多 伦 多 昼 慢 过 的 更 庞大 的 计算 
能 力 ， 但 更 重要 的 是 谷歌 所 拥有 的 海量 数据 。 谷 歌 大 脑 (Google 
Brain) 是 杰 夫 : 迪 因 (Jeff Dean) 领导 的 由 才华 横 洲 的 工程 师 和 科学 家 
组 成 的 杰出 人 才 团 队 。 人 巡 恩 设计 了 谷歌 所 有 的 服务 都 依赖 的 MapReduce 
文件 系统 。 当 你 让 谷歌 翻译 一 段 文字 时 ， 它 现在 所 使 用 的 就 是 迪 恩 的 谷 
歌 大 脑 团 队 设计 的 深度 学 习 技 术 。 当 你 搜索 一 个 关键 词 时 ， 深 度 学 习 会 


对 搜索 结果 进行 排名 。 当 你 与 谷歌 助手 〈Google Assistant) 进行 交谈 
时 ， 它 会 使 用 深度 学 习 来 识别 你 的 话 。 随 着 与 你 的 对 话 进行 得 更 加 流 

畅 ， 它 将 使 用 深度 学 习 为 你 提供 更 好 的 服务 。 谷 歌 已 经 在 全 力 地 钻研 深 
EFA. KAB RAT MF 但 这 从 =A: 
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图 12-9 我 在 2015 年 蒙特 利 尔 NIPS 大 会 上 的 穿着 ， 一 件 “全 美 运动 汽车 竞赛 协会 ” 风 
格 的 夹克 。 会 议 的 赞助 商 五 花 八 门 ， 从 顶级 互联 网 公司 到 金融 和 媒体 公司 ， 它 们 都 
在 深度 学 习 领 域 进行 了 投资 。 图 片 来 源 : NIPS 基 金 会 。 
美国 在 人 工 智 能 方面 正在 失去 领先 地 位 ， 在 你 阅读 这 本 书 的 时 候 ， 

其 他 国家 可 能 已 经 超越 了 我 们 。 多 伦 多 矢量 研究 所 (The Vector Institute 
in Toronto) 于 2017 年 3 月 启动 ， 加 拿 大 政府 和 安大略 省 政府 ， 多 伦 多 大 
学 以 及 私营 企业 对 其 提供 了 1.75 亿 加 元 的 资金 支持 。 三 天 量 研究 所 的 目 
标 是 成 为 世界 领先 的 人 工 智 能 研究 中 心 ， 培 养 最 多 的 机 器 学 习 领 域 的 博 
二 和 硕士 毕业 生 ， 并 成 为 推动 多 伦 多 市 ， 安 大 略 省 乃至 整个 加 拿 大 经 济 


发 展 的 AlI 超 级 集群 的 引擎 。 但 加 拿 大 将 面临 来 自 中 国 的 激烈 竞争 ， 中 国 
正在 培训 数 千 名 机 器 学 习 领 域 的 工程 师 ， 神 经 形态 计算 是 其 “大 脑 项 
目 ” 的 两 翼 之 一 。 受 2017 年 AlphaGo 击 败 柯 洁 事件 的 影响 一 类 似 1957 年 
苏联 制造 的 人 造 卫星 对 美国 的 影响 ， 中 国 已 经 启动 了 一 项 新 的 价值 数 十 
亿美 元 的 人 工 智 能 计划 ， 包 括 雄心 勃勃 的 项 目 、 初 创 企业 和 学 术 研 究 ， 
目的 是 到 2030 年 在 世界 范围 内 占据 重要 地 位 。 三 由 于 其 拥有 大 量 的 医疗 
和 个 人 数据 ， 而 且 普 通 民众 对 隐私 的 关注 相 比 西方 民主 国家 要 少 得 多 ， 
中 国 可 以 超越 其 他 那些 将 私人 数据 保留 在 私有 孤岛 中 的 国家 。 中 国 还 将 
农业 和 制造 业 作 为 数据 收集 的 对 象 。 谁 拥有 最 多 的 数据 ， 谁 就 是 赢家 ， 
中 国 在 数据 上 的 资本 实力 相当 雄厚 。 


中 国 也 希望 “将 人 工 智 能 集成 到 导弹 中 ， 甚 至 预测 犯罪 行为 ”。 三 而 
与 此 同时 ， 美 国 的 政治 领导 人 正 计划 前 减 科 学 和 技术 资金 。 在 20 世 纪 60 
年 代 ， 美 国 在 太空 竞赛 中 投入 了 1000 亿 美元 (该 数字 针对 通货 膨胀 进行 
了 调整 ) ， 三 创造 了 卫星 产业 ， 使 美国 在 微 电 子 和 材料 领域 处 于 领先 地 
位 ， 并 在 科学 和 技术 的 国家 实力 上 做 出 了 政治 宣言 。 当 时 的 投资 至 今 仍 
在 发 挥 功效 。 微 电子 和 先进 材料 是 美国 仍然 具有 竞争 力 的 少数 几 个 行业 
之 一 。 中 国 在 AI 竞争 方面 的 大 量 投资 ， 可 能 会 让 它 在 21 世 纪 的 几 个 关键 
行业 中 处 于 领先 地 位 。 这 一 形势 对 我 们 来 说 是 一 种 警醒 。 

人 工 智 能 正在 加 速 “ 无 形 的 ”信息 经 济 。 经 济 产 出 的 衡量 标准 是 国内 
生产 总 值 CGDP) ， 即 所 有 商品 和 服务 的 总 价值 。 这 项 指标 是 为 工业 经 
济 设计 的 ， 其 主要 产品 和 服务 是 有 形 的 ， 例 如 食品 、 汽 车 和 医疗 保健 。 
但 是 ， 信 息 公 司 中 越 来 越 多 的 价值 并 不 是 以 这 些 实体 产品 进行 衡量 的 。 
例如 ， 微 软 拥有 的 建筑 和 设备 价值 为 10 亿 美元 ， 仅 占 其 市 场 价值 的 
1%。 三 其 余 价 值 则 是 基于 软件 和 微软 程序 员 的 专业 知识 。 你 愿意 为 在 
智能 手机 上 下 载 的 信息 出 个 什么 价钱 ?我 们 需要 一 种 考虑 到 各 种 形式 信 
县 价值 的 新 指标 ， 即 国内 无 形 资产 总 值 (Gross Domestic Intangibles, fi] 
称 GDI) ， 以 强化 GDP 来 衡量 生产 率 。 三 


目前 人 工 智 能 的 应 用 还 是 基于 30 年 前 完成 的 基础 研究 。30 年 后 的 应 


用 将 取决 于 当前 正在 进行 的 基础 研究 ， 但 最 优秀 和 最 聪明 的 研究 人 员 正 
在 为 工业 界 工作 ， 并 专注 于 近期 的 产品 和 服务 。 平 衡 这 一 人 才 流 动 趋势 
的 是 ， 最 聪明 最 优质 的 学 生 现在 都 进入 了 机 器 学 习 领 域 。 而 在 上 一 代 人 
中 ， 类 似 的 人 才 会 进入 投资 银行 业 。 


在 思考 人 工 智 能 的 未 来 时 ， 我 们 需要 保持 目光 长 远 ， 因 为 我 们 远 没 


有 其 备 达到 人 类 智能 水 平 所 需 的 计算 能 力 。 现 在 ， 深 度 学 习 网 络 拥有 数 
百 万 个 单元 和 数 十 亿 个 权重 。 这 比 人 类 大 脑 皮 层 中 的 神经 元 和 突 触 的 数 


量 还 要 少 1 万 倍 


人 类 1 立方 各 米 的 皮层 组 织 就 包含 了 10 亿 个 突 触 。 如 


果 世 界 上 的 所 有 传 感 占 都 连接 到 互联 网 ， 并 通过 深度 学 习 网 络 相 互 连 


接 ， 


那么 有 一 天 ， 互 联网 可 能 会 醒 来 并 主动 说 出 : 
“Hello, world!" Rif, HEF! ) (=) 


Kaggle 网 站 拥有 数 百 万 名 数据 科学 家 ， 他 们 互相 竞争 ， 和 凭借 最 佳 表现 赢得 奖项 。 
Cade Metz, “Uncle Sam Wants Your Deep Neural Networks,” New York Times,June 22, 2017, 
https://www.nytimes.com/2017/06/22/technology/homelandsecurity-artificial-intelligence- 


neural-network.html. 


我 的 演讲 视频 “Cognitive Computing: Past and Present” tf ÆW EREI: 
https:/www.youtube.com/watch?v=0BDMQuphd-Q。 
参阅 Jen Clark, “The Countdown to IBM’s IoT, Munich,” IBM Internet of Things(blog), 


posted February 8, 2017. https://www.ibm.com/blogs/internet-of-things/countdown-ibms-iot-hq- 
munich/. 


BRAIN 的 报告 提出 了 建议 ， 并 为 创新 型 技术 确定 了 优先 事项 ， 以 协助 推动 我 们 对 神 
经 回路 和 行为 的 理解 : BRAIN Working Group, BRAIN 2025: A Scientific Vision, Report to 
the Advisory Committee to the Director, NIH (Bethesda, MD:National Institutes of Health, June 
5, 2014), https://www. braininitiative.nih.gov/pdf/BRAIN2025_508C.pdf. 


参阅 K. S. Kosik, T. J. Sejnowski, M. E. Raichle, A. Ciechanover, and D. A.Baltimore, “A 
Path toward Understanding Neurodegeneration,” Science353, no.6302 (2016): 872-873. 


在 2002 年 的 科幻 电影 《少数 派 报告 》 中 ， 由 汤姆 : 克 鲁 斯 饰演 的 男 主 角 通 过 非法 的 眼 
移植 避免 了 政府 的 退 踩 。 


参阅 Nandan Nilekani and Viral Shah, Rebooting India: Realizing a Billion Aspirations. 
(Gurgaon: Penguin Books India. 2015). 
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conservation-elephants-conserve-elephantsthey-hold. 


参阅 R. A. Brooks, “Elephants Don't Play Chess,” Robotics and Autonomous Systems 6, 
no. 1 (1990): 3-15. 


Diego San 由 Kokoro Co. /E HAY, JrZ^san" CCE) 在 日 语 中 是 一 个 尊称 。 


参考 YouTube 视 频 “Diego Installed," https://www.youtube.com/watch?v= ^ knRy 
DcnUc4U。 机 器 人 的 脸 部 由 大 卫 : 汉 森 和 Hanson Robotics 公 司 打 造 。 


参阅 Paul Ekman, Thomas S. Huang, and Terrence J. Sejnowski, eds., Final Report to NSF 
of the Planning Workshop on Facial Expression Understanding July 30—August 1, 1992, 
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参阅 J. Gottman, R. Levenson, and E. Woodin,“Facial Expressions during Marital 
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参阅 G. Littlewort, J. Whitehill, T. Wu, I. Fasel, M. Frank, J. Movellan, and M. Bartlett, 
“The Computer Expression Recognition Toolbox (CERT),” 2011 IEEE International Conference 
on Automatic Face and Gesture Recognition,Santa Barbara, California. 


http://mplab.ucsd.edu/wp-content/uploads/2011LittlewortEtAl-FG-CERT.pdf. 

焦点 小 组 也 称 焦 点 团体 、 焦 点 群众 ， 就 菜 一 议题 ， 通 过 采访 一 个 群体 以 获取 其 观点 
和 评价 。 一 一 译 者 注 

参阅 A. N. Meltzoff, P. K. Kuhl, J. Movellan, and T. J. Sejnowski, “Foundations for a New 
Science of Learning,” Science 325, no. 5938 (2009): 284—288. 
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参阅 A. A. Benasich, N. A. Choudhury, T. Realpe-Bonilla, and C. P. Roesler,“Plasticity in 
Developing Brain: Active Auditory Exposure Impacts Prelinguistic Acoustic Mapping," Journal 
of Neuroscience 34, no. 40 (2014): 13349-13363. 


参阅 J. Whitehill, Z. Serpell, Y. Lin, A. Foster, and J. R. Movellan, “The Faces of 
Engagement: Automatic Recognition of Student Engagement from Facial Expressions," IEEE 
Transactions on Affective Computing5, no. 1 (2014): 86-98。 使 用 机 器 学 习 来 自动 记录 学 生 面 
部 表情 的 工作 离 不 开 团 队 的 努力 ， 该 团队 成 员 还 包括 Gwen Littlewort、Linda Salamanca, 
Aysha Foster 和 Judy Reilly。 


参阅 R. V. Lindsey, J. D. Shroyer, H. Pashler, and M. C. Mozer, “Improving Students’ 
Long-Term Knowledge Retention through Personalized Review,"Psychological Science 25, no. 
3 (2014): 630—647. 


B. A. Rogowsky, B. M. Calhoun, and P. Tallal, *Matching Learning Style to Instructional 
Method: Effects on Comprehension,” Journal of EducationalPsychology107, no. 1 (2015): 64— 
78. 关于 这 一 主题 的 研讨 会 视频 : https://www.youtube.com/watch?v-p-WEcSFdoMw. 


International Convention on the Science of Learning (Science of Learning: How can it 
make a difference? Connecting Interdisciplinary Research on Learning to Practice and Policy in 
Education) Shanghai, 1-6 March 2014 Summary 
Report.https://www.oecd.org/edu/ceri/International-Convention-on-the-Science-ofLearning-1-6- 
March-2014-Summary-Report.pdf. 


参阅 B. Bloom, *The 2 Sigma Problem: The Search for Methods of Group Instruction as 
Effective as One-to-One Tutoring," Educational Researcher13, no.6 (1984): 4-16. 


John Markoff, *Virtual and Artificial, but 58,000 Want Course," New York Times,August 
15, 2011, http://www.nytimes.com/2011/08/16/science/16stanford. html. 
[30] 我 最 喜欢 的 一 封 信 ， 来 自 一 个 五 年 级 的 学 生 : 


2015 年 2 月 2 日 
亲爱 的 教授 们 ， 我 参加 了 期 末 考 试 ， 考 得 很 好 。 我 在 读 五 年 级 。 我 妈妈 正在 浏览 Coursera 
课程 ， 我 为 求 她 让 我 加 入 。 她 为 我 选择 了 这 门 课 程 ， 我 对 此 很 感激 。 我 从 来 不 知道 教授 们 


如 此 机 智 ， 整 个 课程 都 很 有 趣 。 当 然 ， 我 必须 借助 词典 来 查询 课程 中 使 用 的 科学 术语 ， 但 这 是 
一 个 很 好 的 学 习 体 验 。 通 过 使 用 呼吸 法 ， 我 学 会 了 克服 进入 考场 时 的 胃 部 不 适 。 真 的 很 管用 ! 


现在 我 已 经 学 会 了 将 考试 看 作 了 解 我 学 到 并 记 住 了 多 少 东西 的 工具 。 我 喜欢 番茄 工作 法 。 


我 的 妈妈 在 整个 过 程 中 都 在 扮演 反面 角色 。 她 的 大 脑 里 塞 满 了 视频 讲座 (她 只 顾 着 狂热 地 看 视 


频 ) 


， 没 有 进行 适度 的 休息 ， 甚 至 在 我 参加 期 末 考 试 的 前 一 天 晚上 都 没有 睡觉 。 虽 然 她 比 我 聪 


明 ， 但 她 做 得 不 好 。 我 很 惊讶 ， 简 单 的 技巧 就 能 帮助 我 得 到 更 高 的 分 数 ， 而 且 没有 任何 考试 的 


压力 


10. 


o 


非常 感谢 ， 教 授 们 。 我 希望 你 们 能 推出 本 课程 的 第 二 部 分 。 
周一 快乐 。 
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Barbara Oakley and Terrence Sejnowski, Learning How to Learn: How to Succeedin 
School Without Spending All Your Time Studying; A Guide for Kids and Teens(New York: 
Tarcher Perigee, Penguin Books, August 7, 2018). 


作者 指 的 是 升级 版 的 纳米 学 位 CNanodegree Plus) 。 近 期 优 达 学 城 的 课程 政策 出 现 3 
动 ， 费 用 有 所 上 调 ， 并 于 2017 年 12 月 5 日 起 不 再 提供 升级 版 的 纳米 学 位 项 目 。 译 者 注 
“Udacity’s Sebastian Thrun: ‘Silicon Valley has an obligation to reach out to all of the 


world,” Financial Times, November 15, 2017. https://www.ft.com/content/51c47f88-b278- 
11e7-8007-554f9eaa90ba/. 
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Barbara Oakley, Mindshift: Break through Obstacles to Learning and Discover Your 
Hidden Potential(New York: Penguin Random House, 2017). 
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(2013): 97-101. 


J. A. Anguera, J. Boccanfuso, J. L. Rintoul, O. Al-Hashimi, F. Faraji, J. Janowich,et al., 
“Video Game Training Enhances Cognitive Control in Older Adults," Nature501, no. 7465 
(2013): 97-101. 


参阅 IES: What Works Clearinghouse, Beginning Reading Intervention Report:Fast 
ForWord(Washington, DC: U.S. Department of Education, Institute of Education Sciences, 
2013). https://ies.ed.gov/ncee/wwc/Docs/InterventionReports/wwc ffw 031913.pdf. 


参阅 J. Deveau, D. J. Ozer, and A. R. Seitz “Improved Vision and On-Field Performance in 
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Baseball through Perceptual Learning," Current Biology24, no. 4(2014): R146-147. 


参阅 Federal Trade Commission press release “FTC Charges Marketers of ‘Vision 
Improvement’ App with Deceptive Claims,” September 17, 2015, https://www.ftc.gov/news- 
events/press-releases/2015/09/ftc-charges-marketers-visionimprovement-app-deceptive- 
claims/. 4€% (Seitz) 的 科学 研究 质量 很 高 ， 已 经 发 表 在 同行 评审 的 心理 学 期 刊 上 ， 但 联 
邦 贸易 委员 会 (FTC) 希望 他 能 进行 随机 对 照 试验 ， 类 似 用 于 测试 药物 疗效 的 试验 。 这 是 
一 项 昂贵 的 工作 ， 对 于 一 个 小 型 的 创业 公司 来 说 不 太 现 实 。 

Johana Bhuiyan, “Ex-Google Sebastian Thrun Says That the Going Rate for SelfDriving 


Talent Is $10 Million per Person" Recode, September 17, 2016. 
https://www.recode.net/2016/9/17/12943214/sebastian-thrun-self-driving-talent-pool. 


AX Jb Ae iz Vector Institute 的 首席 科学 指导 。 参 阅 http:/vectorinstitute.ai/。 


Paul Mozur and John Markoff, “Is China Outsmarting America in A.I.?” New YorkTimes, 
May 27, 2017, . https://www.nytimes.com/2017/05/27/technology/chinaus-ai-artificial- 


intelligence.html. 


Paul Mozur, *Beijing Wants A.I. to Be Made in China by 2030," New York Times,July 20, 
2017. https://www.nytimes.com/2017/07/20/business/china-artificialintelligence.html. 


参阅 Mike Wall, “JFK’s ‘Moon Speech’ Still Resonates 50 Years Later," Space.com(blog), 
posted September 12, 2012, _ https://www.space.com/17547-jfk-moonspeech-50years- 
anniversary.html. 1962 年 9 月 12 日 ， 美 国 总 统 约翰 :肯尼迪 在 休斯敦 的 莱 斯 大 学 发 表 了 演 
讲 “ 我 们 选择 飞 向 月 球 ”。50 多 年 后 ， 该 演讲 仍然 令 人 心潮 潜 涯 ， 让 我 们 不 由 得 回忆 起 他 领 
导 的 年 代 。 参 看 https:/www.youtube.com/watch?v=WZyRbnpGyzQ/，1969 年 7 月 20 日 ， 当 宇 
航 员 尼 尔 ' 阿 姆 斯 特 朗 登 上 月 球 时 ， 美 国 国家 航空 航天 局 (NASA) 工程 师 的 平均 年 龄 为 
262; 1962 年 ， 这 些 工 程 师 还 在 学 校 的 时 候 受 到 了 肯尼迪 这 番 讲 话 的 鼓舞 。 


J.Haskel and S. Westlake, Capitalism without Capital: The Rise of the Intangible Economy 


(Princeton, NJ: Princeton University Press, 2017), 4. 


W. Brian Arthur, “The second economy?” McKinsey  QuarterlyOctober, 
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“Hello, world!” 是 一 个 样 例 程序 的 测试 信息 ， 来 自 Brain Kernighan 和 Dennis Ritchie 的 经 
典 教 材 “The C Programming Language "(Englewood Cliffs, NJ:Prentice Hall, 1978). 


13 
算法 驱动 


2016 年 6 月 ， 在 新 加 坡 南 洋 理 工大 学 举办 的 21 世 纪 科 学 挑战 大 会 

上 上 ， 我 参与 了 为 期 一 周 的 讨论 。 讨 论 的 话题 范围 很 广 ， 从 宇宙 论 、 进 化 
论 到 科学 政策 。 三 W. ARR BIZ CW. Brian Arthur) 是 一 个 对 技术 很 
感 兴趣 的 经 济 学 家 ， 三 他 指出 ， 在 过 去 ， 技 术 是 由 物理 定律 驱动 的 : 20 
世纪 ， 我 们 试图 用 微分 方程 和 连续 变量 的 数学 原理 去 理解 物理 世界 ， 这 
些 变 量 在 时 间 和 空间 上 平滑 地 变化 。 相 比 之 下 ,今天 的 技术 是 由 算法 驱 
动 的 : 在 21 世 纪 ， 我 们 试图 通过 离散 数学 和 算法 来 理解 计算 机 科学 和 生 
物 学 复杂 的 本 质 。 阿 瑟 是 新 墨西哥 州 圣 塔 菲 研 究 所 (the Santa Fe 
Institute) 的 教员 ， 该 机 构 是 20 世 纪 涌 现 出 的 许多 研究 复杂 系统 的 中 心 
ON 


算法 无 处 不 在 。 我 们 每 次 使 用 谷歌 搜索 时 都 使 用 了 算法 。 三 每 次 在 
Facebook 上 阅读 的 新 闻 推 送 也 都 经 过 了 算法 的 目 动 租 选 ， 这 些 新 的 推送 
参考 了 我 们 的 阅读 历史 记录 ， 会 影响 我 们 情绪 的 反应 。 三 随 着 经 过 深度 
学 习 训 练 的 语音 识别 和 自然 语言 能 力 被 舱 入 我 们 的 手机 中 ， 算 法 正在 以 
越 来 越 快 的 速度 侵入 我 们 的 生活 。 

算法 是 在 执行 计算 或 解决 问题 时 ， 遵 循 一 组 包含 离散 步骤 或 规则 的 
RE. "HUE" Calgorithm) 这 个 词 来 源 于 拉丁 文 “algorismus”， 以 9 世纪 
的 波斯 数学 家 al-Khwarizmi 的 名 字 命 名 ， 在 17 世 纪 受 到 希腊 语 
中 “arithmos”( 意 为 “数字 ”) 这 个 词 的 影响 ， 最 终 由 “algorism” 转 变 
为 algorithm”。 算 法 虽然 有 着 古老 的 起 源 ， 但 其 地 位 直到 最 近 才 通过 数 
字 计 算 机 提升 到 了 科学 和 工程 领域 的 前 沿 。 


用 算法 把 复杂 问题 简单 化 


20 世 纪 80 年 代 ， 解 决 复杂 度 问 题 的 新 方法 开始 萌 车 ， 其 目标 是 寻找 
新 的 途径 来 理解 在 生物 体 中 发 现 的 系统 ， 这 些 系统 比 物理 和 化 学 系统 还 
要 复杂 。 与 遵循 艾 萨 克 : 牛 顿 运动 定 律 的 火箭 运动 的 简单 性 不 同 ， 并 没 
有 一 种 简易 的 方式 来 描述 树木 如 何 生 长 。 于 是 ， 计 算 机 算法 被 一 大 群 传 
奇 的 先驱 用 来 探索 这 些 古 老 的 生命 体 问 题 。 

斯 图 尔 特 : 考 夫 曼 (Stuart Kauffman) 是 一 名 医生 ， 对 基因 网 络 很 感 
兴趣 。 基 因 网 络 中 被 称 为 “转录 因子 ”的 集 日 质 能 定位 基因 ， 并 影响 它们 
是 否 被 激活 。 三 他 的 模型 是 自 组 织 的， 基于 二 元 单元 网 络 ， 这 个 网 络 和 
神经 网 络 在 某 些 方面 很 相似 ， 但 速度 要 慢 得 多 。 元 里 斯 托 弗 : 兰 顿 
(Christopher ”Langton〉 在 20 志 纪 80 年 代 后 期 创造 了 “人 造 生 命 * 这 个 术 
语 ， 三 由 此 引发 了 一 系列 的 答 试 ， 则 在 理解 活 细胞 的 复杂 性 和 复杂 行为 
形成 发 展 的 原理 。 尺 管 我 们 在 细胞 生物 学 和 分 子 遗 传 学 方面 所 取得 的 进 
展 ， 已 经 能 够 揭示 细胞 内 分 子 机 制 高 度 演化 的 复杂 性 ， 但 生命 的 奥秘 对 
我 们 来 说 仍然 是 个 不 解 之 谜 。 

算法 为 创造 出 比 现 有 世界 更 为 复杂 的 世界 提供 了 新 的 机 会 。 事 实 
上 ，20 世 纪 发 现 的 算法 确实 让 我 们 重新 思考 了 复杂 性 的 本 质 。20 世 纪 80 
年 代 的 神经 网 络 革 命 ， 束 是 由 类 似 的 理解 大 脑 复杂 性 的 演 试 所 张 动 的 。 
虽然 我 们 的 神经 网 络 模型 比 大 脑 的 神经 回路 简单 得 多 ， 但 我 们 开发 的 学 
习 算 法 使 得 探索 一 般 原 理 成 为 可 能 ， 例 如 信息 在 大 量 神经 元 中 的 分 布 原 
理 。 不 过 ， 网 络 功能 的 复杂 性 是 如 何 由 相对 简单 的 学 习 规 则 产生 的 呢 ? 
是 否 存在 一 种 更 简单 的 系统 ， 既 体现 了 复杂 性 ， 又 更 易于 分 析 呢 ? 


理解 、 分 析 复 杂 系 统 


另 一 个 以 科学 的 严肃 态度 对 竺 复杂 性 的 传奇 人 物 是 斯 蒂 分 ` 沃 尔 夫 
勒 姆 〈 见 图 13-1) 。 他 年 轻 时 是 个 神童 ，20 岁 就 从 加 州 理 工学 院 获 得 了 


物理 学 博士 学 位 ， 创 造 了 该 学 位 最 年 轻 毕 业 生 的 纪录 ， 并 于 1986 年 在 伊 
利 诡 伊 大 学 成 立 了 复杂 系统 研究 中 心 。 沃 尔 夫 勒 姆 认为 神经 网 络 过 于 复 
杂 ， 于 是 决定 转变 研究 方向 ， 开 始 探索 细胞 上 自动 机 。 


细胞 自动 机 通常 只 有 少数 几 个 随时 间 变 化 的 离散 值 ， 这 取决 于 其 他 
细胞 的 状态 。 最 简单 的 一 种 细胞 自动 机 ， 是 一 组 一 维 的 细胞 阵列 ， 每 个 
细胞 的 值 为 0 或 1〈 见 方 框 13.1) 。“ 生 命 的 游戏 ”(Game of Life) 也 许 是 
最 著名 的 细胞 自动 机 了 ， 它 是 由 普林斯顿 大 学 的 数学 教授 约翰 : 康 威 
(John Conway) 在 1968 年 发 明 的 ， 并 由 马丁 :加 德 纳 (Martin Gardner) 
通过 他 在 杂志 《科学 美国 人 》 (Scientific American) 的 “数学 游戏 ”专栏 
中 推广 开 来 〈 见 图 13-2) 。 整 个 空间 是 一 个 二 维 的 细胞 阵列 ， 细 胞 只 
有 “ 开 ” 或 “ 关 ” 的 状态 ， 对 规则 的 更 新 仅 取 决 于 4 个 最 近 的 相 令 细胞。 在 
每 个 时 间 步 又 中 ， 所 有 细胞 的 状态 都 会 更 新 。 阵 列 中 会 生成 复杂 的 模 
式 ， 其 中 一 些 模式 还 有 自己 的 名 字 ， 例 如 “滑翔 机 ”， 它 会 横 跨 阵列 并 与 
其 他 模式 发 生 碰 撞 。 初 始 条 件 对 于 找到 显示 复杂 模式 的 配置 至 关 重 要 。 


图 13-1 斯 蒂 芬 。 沃 尔 夫 勒 姆 在 他 位 于 马萨诸塞 州 康 科 德 的 家 中 ， 站 在 由 算法 生成 的 
地 板 上 。 沃 尔 夫 勒 姆 是 复杂 性 理论 的 先驱 ， 他 曾经 提出 ， 即 使 是 简单 的 程序 也 会 生 
成 现实 级 别 的 复杂 性 。 图 片 来 源 : MRR + RRA. 


生成 复杂 系统 的 规则 有 多 普 壳 呢 ? 沃 尔 夫 勒 姆 想 要 了 解 可 能 导致 复 
杂 行 为 的 最 简单 的 细胞 上 自动 机 规则 ， 于 是 他 开始 从 所 有 规则 中 寻找 。 规 
则 0~29 产 生 的 模式 总 是 会 回归 枯燥 的 行为 : 所 有 的 细胞 都 会 以 重复 模式 
或 骨 套 分 形 模式 结束 。 但 是 ， 规 则 30 产 生 了 展开 模式 ， 规 则 110 不 断 变 
化 并 演变 出 了 复杂 模式 (见方 框 13.1) 。 三 最 终 证 明 ， 规 则 110 能 够 实 
现 通用 计算 ; 也 就 是 说， 所 有 可 能 的 细胞 目 动机 中 ， 最 简单 的 一 些 已 经 
具备 了 可 以 计算 任何 可 计算 函数 的 图 灵机 的 能 力 ， 所 以 它 在 原则 上 与 任 
何 计算 机 一 样 强大 。 
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图 13-2 生命 的 游戏 。 一 个 Gosper 滑 翔 机 枪 (图 片 顶 部 ) 的 快照 ， 它 发 出 一 系列 按 对 
角 线 飞行 的 滑翔 机 图 标 ， 从 “ 母 船 ” ONSE) 飞 往 右 下 角 。 图 片 来 自 维基 百科 : 
Gun (cellular automaton) ， 有 一 个 滑翔 机 枪 运动 的 GIF 动 务 。 

该 发 现 的 一 个 音义 在 于 ， 我 们 在 生命 体 中 友 现 的 显著 复杂 性 ， 可 以 
通过 对 分 子 间 化 学 相互 作用 的 最 简 空 间 进 行 采 样 ， 从 而 实现 演化 。 而 演 
化 过 程 中 出 现 的 复杂 的 分 子 组 合 ， 应 该 是 能 够 预料 到 的 ， 不 应 该 被 当 作 
是 什么 奇迹 。 但 细胞 自动 机 可 能 不 是 早期 生命 的 优秀 模型 ， 究 竟 哪 些 简 
单 的 化 学 系统 能 够 产生 复杂 的 分 子 结构 ， 仍 然 是 一 个 蕊 而 未 决 的 问题 。 
三 也 许 只 有 特殊 的 生物 化 学 系统 才 有 这 种 特性 ， 这 有 助 于 减少 可 能 产生 
生命 的 潜在 相互 作用 种 类 的 数量 。 


生命 的 一 个 重要 特性 ， 是 细胞 的 自我 复制 能 力 。 匈 牙 利益 美国 数学 
家 约 输 : 冯 : 诺 依 曼 ， 曾 经 于 20 世 纪 40 年 代 在 普林斯顿 高 级 研究 所 使 用 细 
胞 自动 机 探索 过 这 种 能 力 。 冯 : 话 依 曼 的 工作 对 数学 的 许多 领域 都 产生 
了 重大 影响 ， 特 别 是 他 关于 博 蛮 论 的 开创 性 工作 《在 第 1 章 中 提 到 
过 ) 。 在 寻找 可 以 完全 自我 复制 的 最 简单 的 细胞 上 自动 机 过 程 中 ， 误 : 话 
依 曼 发 现 了 一 个 复杂 的 细胞 目 动机 ， 基 有 29 个 凡 部 状态 和 一 个 大 型 的 记 
忆 体 ， 可 以 实现 自我 复制 。 三 该 发 现 具有 重大 的 生物 学 意义 ， 因 为 能 够 
目 我 复制 的 细胞 中 ， 也 有 许多 内 部 状态 和 记忆 以 DNA 的 形式 存在 。 从 那 
以 后 ， 更 简单 的 、 能 够 目 我 复制 的 细胞 目 动 机 陆续 被 发 现 。 


大 脑 的 逻辑 深度 


19434F, WE- Z RY v4 C Warren McCulloch) 和 沃尔特 : 皮 欧 
(Walter Pitts) 证 明了 ， 用 类 似 感 知 器 的 简单 二 进 制 国 值 单元 构建 一 台 
数字 计算 机 是 可 行 的 ， 只 要 将 感知 右 按 照 计算 机 的 基本 逻辑 门 那 样 连接 
FORMA AS. 三 我 们 现在 知道 ， 大 脑 有 模拟 和 数字 的 混合 特性 ， 它 们 
的 神经 回路 通 稼 不 计算 逻辑 函 数 。 但 是 麦 卡 洛克 和 皮 淆 于 1943 年 发 表 的 
论文 在 当时 受到 了 很 多 关注 ， 特 别 是 启发 了 冯 : 诺 依 曼 对 计算 机 的 思 
考 。 他 创建 了 第 一 批 有 存储 程序 的 数字 计算 机 ， 这 对 于 当时 的 数学 家 来 
说 是 一 个 很 不 寻常 的 项 目 ， 尺 管 当 冯 : 诺 依 曼 于 1957 年 去 世 时 ， 噩 级 研 
完 所 并 没有 继续 他 的 研究 ， 还 销毁 了 他 的 计算 机 。 — 

冯 : 诺 依 曼 对 大 脑 也 非常 感 兴趣 。1956 年 ， 作 为 耶鲁 大 学 举办 的 西 
A= (Silliman) 讲座 亮 宾 ， 三 他 在 讲座 中 思考 了 大 脑 如 何 用 这 种 不 可 
靠 的 组 件 进行 可 靠 操 作 的 问题 。 当 数字 计算 机 中 的 晶体 管 出 现 错误 时 ， 
整个 计算 机 可 能 就 会 月 恋 ， 但 是 当 大 脑 中 的 某 个 神经 元 失灵 时 ， 大 脑 的 
其 他 部 分 却 会 适应 这 种 失灵 ， 并 照常 工作 。 冯 : 话 依 曼 认 为 ， 见 余 
(redundancy) 可 能 是 大 脑 能 够 稳定 运转 的 原因 ， 因 为 每 一 个 操作 都 有 
许多 神经 元 参与 。 见 余 在 传统 上 是 基于 备份 的 ， 以 防 主 系统 出 现 故 障 。 
但 我 们 现在 知道 ， 大 脑 的 见 余 是 基于 多 样 性 ， 而 不 是 重复 。 冯 : 诺 依 曼 
对 人 逻辑 深度 也 表示 了 担忧 : 在 累计 误差 破坏 结果 之 前 ， 大 脑 可 以 完成 多 
少 逻 辑 步骤 ?与 可 以 完美 地 执行 每 个 逻辑 步骤 的 计算 机 不 同 ， 大 脑 具 有 
许多 噪声 源 。 一 个 大 脑 可 能 达 不 到 完美 的 程度 ， 但 是 因为 它 有 许多 神经 
元 并 行 工 作 ， 所 以 每 一 步 能 够 完成 的 计算 都 比 一 台 计 算 机 进行 一 次 计算 
所 能 完成 的 要 多 得 多 ， 因 而 逻辑 深度 也 要 浅 一 些 。 


符 试 所 有 可 能 的 策略 


想象 一 下 充满 了 所 有 可 能 算法 的 空间 。 这 个 空间 中 的 每 一 点 都 是 一 
个 算法 ， 可 以 做 条 件 事 ， 而 且 其 中 一 些 算法 是 非 第 有 用 且 遍 效 的 。 过 
去 ， 这 些 算 法 是 由 数学 家 和 计算 机 科学 家 们 手工 创造 的 ， 就 像 行 会 里 的 


工匠 那样 。 斯 蒂 芬 . 沃 尔 夫 勒 姆 通过 和 穷 举 搜 索 (exhaustive search) 对 搜 
寻 细 胞 自动 机 算法 的 过 程 进行 了 自动 化 ， 从 最 简单 的 自动 机 开始 ， 其 中 
一 些 产 生 了 蜗 度 复杂 的 模式 。 沃 尔 夫 勒 姆 定律 CWolfram'slaw) 是 对 这 
种 见解 的 一 个 总 结 。 该 定律 指出 ， 你 不 必 在 算法 空间 中 搜索 很 长 一 段 路 
径 ， 束 可 以 找到 一 种 能 解决 一 类 有 趣 问 题 的 算法 。 这 就 像 使 用 机 器 人 程 
序 在 互联 网 上 玩 类 似 《 星 际 争霸 》 的 游戏 一 样 ， 尝 试 所 有 可 能 的 策略 。 

根据 沃 尔 夫 勒 姆 定律 ， 算 法 空间 中 应 该 有 大 量 算法 可 以 启 得 游戏 。 

沃 尔 夫 勒 姆 专注 于 细胞 自动 机 的 空间 ， 这 是 所 有 可 能 算法 空间 中 一 
个 小 的 子 空间 。 但 是 ， 如 果 细 胞 自动 机 是 非典 型 算法 ， 比 其 他 类 算法 更 
上 共有 普遍 性 呢 ?” 我 们 现在 已 经 在 神经 网 络 空 间 中 确认 了 沃 尔 夫 勒 姆 定 
律 。 每 个 深度 学 习 网 络 都 是 通过 学 习 算 法 找到 的 ， 该 算法 是 一 种 发 现 新 
算法 的 元 算法 。 对 于 大 型 网 络 和 大 量 数据 ， 从 不 同 的 起 始 状态 学 习 可 以 
产生 如 星系 般 庞 大 的 网 络 数量 ， 它 们 在 解决 问题 上 都 能 达到 相同 效果 。 
这 就 产生 了 一 个 问题 ， 即 是 否 存 在 一 种 比 梯度 下 降 更 快 的 方法 能 够 找到 
算法 空间 的 区 域 。 梯 度 下 降 这 种 方法 速度 慢 ， 还 需要 使 用 大 量 的 数据。 
有 一 个 暗示 揭示 了 这 种 可 能 性 ， 即 每 个 生物 种 类 ， 都 是 由 生命 算法 空间 
中 的 一 个 点 附近 的 变 体 DNA 序 列 创建 的 个 体 云 。 目 然 界 通过 自然 选择 设 
法 从 一 个 “个 体 云 "跳跃 到 为 一 个 云 ， 这 种 跳跃 式 过 程 被 称 为 “间断 性 平 
衡 ”(punctuated equilibria) 三， 同时 每 个 物种 也 经 历 着 随机 突变 的 局 部 
搜索 。 遗 传 算法 被 设计 用 来 进行 这 样 的 跳跃 ， 大 至 是 基于 目 然 界 如 何 演 
化 出 新 的 有 机 体 ' 三 。 我 们 需要 用 数学 来 描述 这 些 算法 云 。 可 谁 知道 算法 
的 空间 是 什么 样子 呢 ? 还 有 很 多 我 们 尚未 发 现 的 算法 “星系 ”， 但 我 们 可 
以 通过 自动 探索 的 方式 来 找到 这 些 星 系 终极 边境 。 

我 实验 室 的 博士 后 研究 员 克 劳 斯 : 施 带 费 尔 (Klaus Stiefel) 跟 进 了 
这 一 过 程 中 的 一 个 简单 例子 。 他 在 2007 年 使 用 了 一 种 算法 ， 在 计算 机 中 
生成 了 具有 复杂 的 树 突 树 (dendritic trees) 的 模型 神经 元 。 三 树 突 就 像 
天 线 一 样 从 其 他 神经 元 收集 输入 。 可 能 的 树 突 树 的 空间 是 巨大 的 ， 而 施 
带 费 尔 的 目标 是 指定 所 需 的 功能 ， 并 在 树 突 树 的 空间 中 搜索 能 够 计算 出 


该 功能 的 模型 神经 元 。 一 个 有 效 的 功能 是 决定 输入 放电 尖峰 的 到 达 顺 

Fe: 当 一 个 特定 的 输入 在 另 一 个 输入 之 前 到 达 时 ， 神 经 元 应 该 输出 一 个 
放电 人 尖峰， 但 是 如 果 该 输入 随后 到 达 ， 和 神经 元 应 该 保持 沉默 。 这 种 模型 
神经 元 是 通过 使 用 遗传 算法 搜索 所 有 可 能 的 树 突 树 发 现 的 ， 且 该 解决 方 
案 看 起 来 就 像 皮 层 锥 体 神经 元 ， 一 个 突 触 位 于 确 部 的 薄 树 突 (基底 树 

突 ) ， 男 一 个 突 触 位 于 神经 元 项 部 的 厚 树 突 〈 顶 树 突 ， 见 图 14-6)〉 。 这 
也 许 解释 了 为 什么 锥 体 细胞 有 顶端 和 基底 的 树 突 。 如 果 没 有 对 所 有 可 能 
突 触 的 空间 进行 深入 搜索 ， 我 们 可 能 就 无 法 将 这 种 结构 和 上 述 功能 联系 
起 来 。 通 过 从 其 他 功能 开始 重复 此 搜索 ， 可 以 自动 编译 以 树 突 形状 列 出 
相应 功能 的 目录 ， 并 且 当 发 现 新 的 神经 元 时 ， 可 以 在 目录 中 通过 其 树 突 
形状 查找 其 潜在 的 功能 。 


斯 带 芬 : 沃 尔 夫 勒 姆 离开 学 术 界 后 创立 了 沃 尔 夫 勒 姆 研究 所 ， 后 者 
开发 了 Mathematica 程 序 ， 访 程序 文 持 大 量 的 数学 结构 ， 并 被 广泛 应 用 
于 实际 。Mathematica 是 用 沃 尔 夫 勒 姆 语言 编写 的 ， 这 是 一 种 通用 的 融 
合 多 种 范式 的 编程 语言 。 访 语言 也 为 添 尔 夫 勒 姆 阿尔 法 CWolfram 
Alpha) 提供 文 持 ， 它 是 第 一 个 实用 的 、 基 于 符号 方法 的 天 于 大 干 世界 
的 问答 系统 。 三 学 术 领 域 的 货币 ， 是 发 表 的 文章 。 如 有 果 你 是 一 个 自立 的 
绅士 派 科 学 家 ， 你 束 有 能 力 绕 过 简短 的 文章 ， 出 版 有 足够 空间 来 彻底 探 
过 新 领域 的 书籍 。 这 是 多 个 世纪 以 来 的 常态 ， 只 有 富 人 或 富 人 赞助 的 学 
者 ， 才 有 条 件 成 为 科学 家 。 

DORAMMBTE20025E*5 f 《一 种 新 的 科学 》 CA New Kind of 
Science) ~P. 三 该 书 重 5.6 磅 ， 长 达 1280 页 ， 其 中 有 348 页 记录 了 相当 
于 100 份 新 科学 论文 的 附录 。 这 本 书 被 媒体 大 肆 宣 传 ， 但 引发 了 复杂 系 
统 界 价 几 不 一 的 评论 ， 其 中 一 些 人 认为 其 中 并 没有 完整 地 引用 他 们 的 工 
作 。 这 种 反对 意见 并 没有 抓 住 此 书 的 要 点 ， 即 把 以 前 的 工作 置 于 新 的 语 
境 下 。 卡 尔 : 林 奈 (Carolus Linnaeus〉 开 发 了 一 种 现代 化 的 植物 和 动物 
分 类 法 ， 即 “二 名 法 ”(Binomial Nomenclature) , W KHAT 
(Escherichia coli) 。 该 命名 法 是 达尔 文 进 化 论 的 重要 先导 ， 为 早期 的 


分 类 学 做 了 铺垫 。 沃 尔 夫 勒 姆 开辟 的 这 一 研究 方 同 在 新 一 代 研 究 人 员 中 
己 经 有 了 一 批 奶 随 者 。 


在 20 世 纪 80 年 代 ， 沃 尔 夫 勒 姆 对 神经 网 络 可 能 对 现实 世界 产生 的 影 
啊 表 示 怀 疑 ， 而 且 事实 上 ， 这 些 神 经 网 络 在 之 后 30 年 的 确 没有 产生 太 大 
的 影响 。 然 而 ， 过 去 5 年 的 进步 已 经 改变 了 这 一 点 : 沃 尔 夫 勒 姆 和 其 他 
许多 研究 人 员 承 认 他 们 低估 了 网 络 的 成 就 。 三 但 是 谁 能 预测 神经 网 络 的 
性 能 会 扩展 到 什么 程度 呢 ? 支持 Mathematica 的 沃 尔 夫 勒 姆 语言 现在 也 
文 持 深度 学 习 应 用 ， 其 中 一 个 应 用 ， 是 最 早 对 图 像 中 的 对 象 提供 在 线 识 
别 技术 的 应 用 程序 。 三 


是 斯 带 芬 把 我 介绍 给 了 比 阿 特 丽 斯 :哥伦布 。1987 年 我 去 圣 友 戈 
时 ， 比 阿 特 丽 斯 正在 加 州 大 学 圣迭戈 分 校 攻读 博士 学 位 。 他 打 电 话说 ， 
他 的 朋友 比 阿 特 丽 斯 会 参加 我 的 PDP 讲 座 〈 之 后 又 分 别 给 我 们 打 电 话 询 
问 事情 的 进展 ) o JLE, RREZ, JERMENA 
婚 。1990 年 我 们 在 加 州 理工 学 院 举行 完婚 礼 后 ， 去 了 贝克 曼 礼 筷 参 加 了 
一 个 婚礼 研讨 会 ， 比 阿 特 丽 斯 映 着 婚纱 ， 发 表 了 一 个 演讲 一 一 《婚姻 : 
理论 与 实践 》 (Marriage: Theory and Practice) 。 斯 带 芬 自 信 满 满 ， 不 
无 骄傲 地 介绍 了 他 当时 是 如 何 介绍 我 们 认识 的 。 不 过 比 阿 特 丽 斯 提出 ， 
如 果 他 想 邀 功 ， 也 必须 承担 相应 的 责任 ， 对 此 ， 他 齐 慎 地 表示 了 反对 。 


L “21 世 纪 科 学 挑战 大 会 "上 讨论 者 的 演讲 视频 可 以 在 这 里 找到 ， 


https://www. youtube.com/results?search_query=Grand+Challenges++for+Science+in+the+21 


st* Century. 
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我 们 正在 目睹 电脑 必 片 行业 一 个 新 格局 的 诞生 。 该 领域 的 竞争 主要 
在 于 如 何 设 计 和 制造 新 一 代 的 公 片 ， 能 够 运行 学 习 算 法 一 一 不管 是 深度 
学 习 、 强 化 学 习 还 是 其 他 的 学 习 算法 一 一 比 在 通用 计算 机 上 的 模拟 学 习 
算法 快 上 几 千 倍 ， 能 耗 也 更 低 。 新 的 超大 规模 集成 电路 忆 片 采取 并 行 处 
理 结构 ， 融 有 内 存 ， 能 够 缓解 在 过 去 50 年 里 主导 计算 的 顺序 训 : 话 依 曼 
构架 中 内 存 和 中 央 处 理 器 之 间 的 瓶颈 。 在 硬件 层面 ， 我 们 还 在 探索 阶 
段 。 每 种 具有 特殊 用 途 的 超大 规模 集成 电路 必 片 都 有 不 同 的 优点 和 局 限 
性 。 运 行人 工 乔 能 应 用 的 大 型 网 络 需要 巨大 的 运算 能 力 ， 因 此 ， 构 建 高 
效 的 硬件 有 着 巨 大 的 最 利空 间 。 


主要 的 电脑 蕊 片 公司 和 初创 公司 都 在 开发 深度 学 习 心 片上 投入 了 大 
量 资金 。 比 如 ，2016 年 ， 英 特 尔 用 4 亿美 元 并 购 了 Nervana， 这 是 一 家 来 
自 芭 迭 蕊 的 初创 公司 ， 主 营 设 计 深 度 学 习 的 专用 超大 规模 集成 电路 心 
片 。Nervana 前 CEO 纳 维 恩 : 饶 (Naveen Rao) 现在 负责 领导 英特尔 新 设 
立 的 AI 产品 部 ， 直 接 报 告 给 英特尔 的 CEO。2017 年 ， 英 特 尔 用 153 亿 美 
元 并 购 了 Mobileye， 该 公司 专注 于 生产 上 自动 驾驶 汽车 的 传感器 以 及 计算 
机 视觉 系统 。 瑞 伟 达 Nvidia，〉 开 发 了 能 够 优化 图 形 应 用 程序 和 游戏 的 
专用 数字 访 片 ， 称 为 图 形 人 处理 器 (graphics — processingunits, GPUs) , 
目前 正在 销售 更 多 为 深度 学 习 和 计算 设计 的 专用 心 族 。 而 谷歌 则 设计 生 
产 了 一 种 更 为 高 效 的 专用 已 片 张 量 处 理 单元 (tensor processing 
unit，TPU) ， 以 助力 为 其 互联 网 服务 的 深度 学 习 。 


不 过 研发 专用 软件 和 发 展 深度 学 习 应 用 同样 重要 。 谷 歌 开 源 了 和 它 的 


深度 学 习 项 目 TensorFlow， 尽 管 该 做 法 并 没有 看 起 来 那么 无 私 。 比 如 让 
安 持 系统 免费 开源 ， 就 给 了 谷歌 对 全 世界 绝 大 多 数 智能 手机 操作 系统 的 
控制 权 。 现 在 除了 TensorFlow， 还 有 其 他 一 些 开 源 选 择 ， 比 如 微软 的 
CNTK， 亚 马 进 和 其 他 大 型 互联 网 公司 文 持 的 MVNet， 以 及 其 他 深度 学 
习 程 序 ， 比 如 Caffe、Theano 和 PyTorch。 
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2011 年 ， 我 在 挪威 的 特 罗 姆 琴 组 织 举办 了 由 Kavli 基 金 会 赞助 的 “ 绿 
色 环 境 中 高 性 能 计算 的 发 展 ”(Growing High Performance Computing in a 
Green Environment) 研讨 会 。 三 我 们 估计 ， 使 用 当前 的 微 处 理 器 技术 ， 
百 亿 亿 次 级 (exascale) 计算 [ 比 千 万 亿 次 级 Cpetascale). 计算 强大 1000 
倍 ] 需要 50 兆 瓦 的 功率 ， 比 运行 纽约 市 地 铁 所 需 的 功率 还 多 。 因 此 ， 下 
一 代 超 级 计算 机 可 能 不 得 不 使 用 像 英 国 跨国 半导体 公司 Arm 
Holdings (ARM) 为 手机 开发 和 优化 的 那 种 低 功 耗 芯片 。 很 快 ， 在 大 多 
数 计算 密集 型 应 用 中 使 用 通用 数字 计算 机 将 不 再 可 行 ， 专 用 心 片 将 占 主 
导 地 位 ， 因 为 它们 已 经 被 租 入 手机 中 了 。 

人 类 大 脑 中 有 大 约 1000 亿 个 神经 元 ， 每 个 神经 元 都 与 其 他 数 千 个 神 
经 元 相连 接 ， 总 计 达 1000 万 亿 个 10) 突 触 连接 。 大 脑 运转 所 需 的 功 
耗 大 约 是 20 瓦 ， 占 整个 映 体 运转 所 雷 功 率 的 20%， 尺 省 大 脑 仅 占 时 体质 
量 的 3%。 相 比 之 下 ， 一 台 远 不 如 大 脑 强 大 的 干 万 亿 次 级 超级 计算 机 ， 
功 耗 却 为 5 兆 瓦 ， 是 大 脑 功 耗 的 25 万 倍 。 大 目 然 是 怎么 创造 出 这 一 高 效 
奇迹 的 呢 ? 首先 ， 神 经 元 接收 和 发 送信 号 的 部 分 被 微缩 至 分 子 水 平 。 另 
外 ， 神 经 元 是 在 三 维 空间 上 连接 的 ( 微 蕊 片 表面 的 晶体 管 仅 在 二 维 平面 
上 相互 连接 ) ， 这 样 就 可 以 使 所 需 空间 最 小 化 。 由 于 大 自然 很 久 以 前 就 
进化 出 了 这 些 技术 ， 想 要 退 赶 大 脑 的 能 力 ， 我 们 还 有 很 多 工作 要 做 。 

深度 学 习 是 高 度 计算 密集 型 的 ， 该 过 程 目前 在 中 央 服 务 器 上 完成 
计算 结果 会 被 传 送 到 手机 等 周边 设备 。 最 终 ， 周 边 设备 应 该 是 自主 运行 


的 ， 这 融 需 要 完全 不 同 的 硬件 一 一 比 云 计算 轻 得 多 ， 耗 电 也 更 少 。 羊 运 
的 是 ， 这 样 的 硬件 已 经 存在 了 ， 即 受 大脑 司 发 设计 出 的 神经 形态 忆 片 


o 


视网膜 必 亡 


1983 年 ， 我 在 匹兹堡 郊外 一 个 度假 村 里 举行 的 研讨 会 上 第 一 次 见 到 
T FRIRE (Carver Mead) 〈 见 图 14-1) 。 那 时 杰 弗 里 : 考 顿 创建 了 一 
个 小 组 来 探索 神经 网 络 研 究 的 发 展 趋势 。 米 德 因 其 在 计算 机 科学 领域 的 
重要 贡献 而 闻名 。 他 第 一 个 认识 到 ， 随 着 大 规模 集成 电路 心 片上 的 晶体 
管 变 得 越 来 越 小 ， 心 片 将 越 来 越 高 效 ， 计 算 能 力也 应 该 会 持续 增长 很 长 
一 段 时 间 。 他 还 创造 了 “摩尔 定律 ”这 个 术语 ， 根 据 戈 登 :摩尔 (Gordon 
Moore) 的 观察 ， 心 片上 的 晶体 管 数量 每 18 个 月 会 翻 一 番 。1981 年 ， 卡 
弗 发 明了 硅 编 译 器 ， 从 此 成 为 业界 传奇 。 硅 编译 器 是 一 种 自动 在 必 片 上 
设计 系统 级 功能 模块 和 布线 的 程序 。 三 在 硅 编译 器 诞生 之 前 ， 每 款 芯 片 
都 是 由 工程 师 基 于 经 验 和 直觉 手工 制作 出 来 的 。 从 本 质 上 讲 ， 米 德 的 解 
决 方案 是 让 计算 机 自己 设计 芯片 。 这 是 我 们 迈 向 纳米 工程 的 起 点 。 


图 14-1 1976 年 的 卡 弗 。 米 德 。 正 是 在 那 段 时 期 ， 他 在 加 州 理工 学 院 创造 了 第 一 个 硅 
编译 器 。 卡 弗 是 一 位 有 远见 的 人 ， 他 的 洞察 力 和 引领 的 技术 进步 对 数字 和 模拟 计算 
产生 了 重大 影响 。 桌 上 的 电话 上 暗示 了 照片 的 拍摄 时 间 。 图 片 来 源 : 加 州 理工 学 院 。 
米 德 是 一 位 鼎 有 远见 的 人 。 我 们 曾 一 起 在 匹兹堡 郊外 参加 一 个 研讨 
会 。 尽 管 大 家 挤 在 楼 上 一 个 小 房间 里 的 更 子 边 上 讨论 ， 但 是 正在 进行 着 


的 是 一 场 天 于 超级 计算 机 的 会 议 。 当 时 Cray 和 Control Data 等 主流 超级 计 
算 机 公司 正在 设计 专用 硬件 ， 比 我 们 实验 室 的 计算 机 快 了 数 百 倍 ， 售 价 
高 达 1 亿 美元 。Cray 超 级 计算 机 速度 如 此 之 快 ， 不 得 不 用 毛利 郧 进行 液 
体 冷 却 。 米 德 告 诉 我 ， 超 级 计算 机 公司 还 不 知道 ， 通 用 微 处 理 器 将 会 占 
领 它 们 的 市 场 ， 这 些 公 司 很 快 就 会 销声匿迹 。 虽 然 比 超级 计算 机 中 的 专 
用 蕊 片 慢 得 多 ， 但 得 益 于 因 缩 小 基本 器 件 尺 寸 所 带 来 的 成 本 压缩 和 性 能 
改进 ， 个 人 计算 机 中 的 微 处 理 器 进化 得 比 超 级 计算 机 中 的 还 要 快 。 现 在 
手机 中 的 微 处 理 器 的 计算 能 力 是 20 世 纪 80 年 代 Cray XMP 超 级 计算 机 的 
10 倍 ， 现 在 的 高 性 能 超级 计算 机 拥有 数 十 万 个 微 处 理 器 核心 ， 每 秒 进行 
的 浮 点 运算 达到 了 和 于 万 亿 次 级 别 ， 比 已 经 消失 的 Cray 超 级 计算 机 快 100 
万 倍 。 考 虑 到 通货 脱 胀 ， 两 者 的 成 本 大 致 是 相同 的 。 


在 1983 年 的 那 次 研讨 会 上 ， 米 德 回 我 们 展示 了 一 个 硅 视 网 膜 ， 它 使 
用 了 与 超大 规模 集成 电路 必 片 相同 的 制造 技术 ， 但 使 用 了 模拟 而 非 数字 
电路 。 在 模拟 电路 中 ， 唱 体 管 上 的 电压 可 以 连续 变化 ， 而 数字 电路 中 的 
晶体 管 只 能 采用 “ 开 ” 或 “ 关 ” 两 个 二 进 制 值 中 的 一 个 。 人 的 视网膜 上 有 一 
亿 个 光 感 受 器 ， 与 相机 将 信息 从 光子 桶 〈photon buckets) 传动 到 记忆 体 
的 方式 不 同 ， 视 网 膜 具 有 多 层 神 经 处 理 功能 ， 可 将 视觉 输入 转换 为 高 效 
的 神经 编码 。 视 网 膜 的 所 有 处 理 过 程 都 是 模拟 的 ， 直 到 其 编码 信号 到 达 
神经 节 细 胞 ， 神 经 市 细胞 将 这 些 信号 沿 着 100 万 个 轴 突 ， 以 “全 或 无 ”的 
放电 脉冲 形式 传送 到 大 脑 。 脉 冲 信号 的 “全 或 无 ”特征 就 像 数字 逻辑 ， 但 
放电 脉冲 的 时 间 是 一 个 模拟 变量 ， 没 有 时 钟 同步 ， 因 此 放电 脉冲 序列 是 
一 种 混合 编码 。 

在 米 德 的 视网膜 尾 片 中， 处理 过 程 的 分 级 部 分 是 通过 使 用 位 于 国 值 
拐点 以 下 ， 从 “ 关 ? 到 接近 “ 关 ? 状 态 的 电压 来 完成 的 。 与 之 相反 ， 在 数字 
模式 下 运行 时 ， 品 体 管 迅 速 跳 到 完全 “ 导 通 ”的 状态 ， 这 需要 消耗 更 多 的 
功率 。 因 此 ， 横 拟 超大 规模 集成 电路 忆 片 仅 消 耗 数 字 必 片 所 需 能 耗 的 一 
小 部 分 ， 从 纳 瓦 到 微 拟 ， 而 不 是 从 坚 瓦 到 瓦 ， 能 量 效率 提升 了 数 百 万 
倍 。 米 德 是 神经 形态 工程 的 创始 人 ， 他 致力 于 构建 基于 大 脑 式 算法 的 必 
片 ， 在 1989 年 ， 他 表明 矢 入 在 昆虫 和 哺乳 动物 眼睛 神经 环 路 中 的 神经 算 


法 ， 可 以 有 效 地 复制 到 芯片 上 。! 己 


AVR RES Pr fe ZR BBY HH E EE RD Sy EVA (Misha 
Mahowald) 于 1988 年 创造 的 一 项 令 人 印象 深刻 的 发 明 ( 见 图 14-2〉。 
忆 她 在 加 州 理工 学 院 读本 科 时 主 修 的 是 生物 学 。 在 研究 生 阶段 ， 她 从 事 
的 是 电子 工程 领域 的 工作 。 这 两 个 领域 的 结合 所 带 来 的 洞 见 帮 助 她 获得 
了 四 项 专利 。1992 年 ， 她 的 博士 论文 描述 了 在 芯片 上 的 实时 双 目 匹配 ， 
这 是 第 一 个 真正 使 用 集群 行为 完成 艰巨 任务 的 必 片 。 为 此 她 获得 了 加 州 
理工 学 院 的 米尔 顿 和 弗朗西斯 :克拉 译 奖 (Milton and Francis Clauser 
Prize》。1996 年 ， 她 的 名 字 还 被 列 入 了 国际 技术 女性 (Women in 
Technology International, WITI) 4 A. 


图 14-2 1982 年 ， 加 州 理工 学 院 的 米 藻 。 马 霍 沃 德 作为 卡 弗 。 米 德 的 学 生 ， 创 造 了 当 
时 世界 上 第 一 个 硅 视网膜 。 她 对 神经 形态 工程 的 贡献 是 开创 性 的 。 图 片 来 源 : 托 比 
RAB Ro 
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Hj] (Kevan Martin) 和 罗 德 尼 . 道 格拉 斯 (Rodney Douglas) 合作 开发 
过 人 硅 神 经 元 ，' 二 并 随同 他 们 一 起 搬 到 了 苏 歼 世 ， 帮 助 他 们 在 苏黎世 大 学 
和 瑞士 联邦 理工 学 院 建 立 了 神经 信息 学 研究 所 ( 见 图 14-3) 。 然 而 后 
来 ， 在 经 历 了 抑郁 症 的 折磨 之 后 ， 米 莎 于 1996 年 结束 了 自己 的 生命 ， 时 
年 33 岁 。 一 位 杰出 的 新 星 就 此 陨落 。 


图 14-3 硅 神 经 元 。 该 模拟 大 规模 集成 电路 芯片 具有 类 似 于 神经 元 中 离子 通道 的 电 
路 ， 能 够 实时 对 神经 回路 进行 仿真 操作 ， 正 如 米 莎 。 马 霍 沃 德 在 芯片 上 绘制 的 卡通 
图 所 示 。 图 片 来 源 : 罗 德 尼 。 道 格拉 斯 。 

弗 : 米 德 于 1999 年 从 加 州 理工 学 院 退 休 后 搬 到 了 西雅图 ，2010 年 
我 去 拜访 过 他 。 在 他 家 的 后 院 ， 可 以 看 到 飞机 飞 过 水 面 有 序 地 降落 到 
Sea-Tac 机 场 。 他 的 父亲 是 一 位 工程 师 ， 在 大 溪水 电 项 目的 一 座 发 电厂 
工作 ， 该 项 目 是 位 于 加 州 中 部 内 华 达 山脉 圣 华 金 河上 游 系统 的 一 个 大 型 
水 电 项 目 。 从 早期 的 水 电 技 术 问 微 电 子 技术 的 飞跃 ， 仅 仅 花 了 一 代 人 的 


时 间 ， 真 令 人 难以 置信 。 卡 弗 的 爱好 是 收集 用 于 巷 挂 电线 的 上 古董 玻璃 和 
陶 癣 绝缘子。 如 果 你 选 对 了 地 点 ， 束 会 像 寻 找 散 落 的 印第安 入 头 一 样 轻 
松 地 找到 它们 。 卡 弗 目 光 长 远 他 拥有 一 台 激 光 陀 螺 仪 ， 甸 经 被 用 来 测 
试 量子 物理 学 的 新 方法 ) ，' 三 而 他 之 所 以 如 此 高 效 ， 是 因为 他 致力 于 打 
造 不 仅 能 够 正常 运转 ， 还 可 以 被 你 拿 在 手中 把 玩 的 东西 。 


神经 形态 工程 


1990 年 ， 作 为 在 加 州 理 工学 院 体 学 术 年 假 的 仙 童 杰出 学 者 ， 我 喜欢 
FIM Km BAM, Toe be BCI Bb CChristof Koch) (MMR 
有 着 共同 兴趣 的 计算 神经 科学 家 〉 和 他 的 同事 的 会 议 ， 以 及 
Carverland， 即 卡 弗 : 米 德 的 研究 小 组 的 会 议 。Carverland 有 一 个 令 人 司 
叹 的 项 目 奎 耳 蜗 ， 它 具有 和 我 们 耳 中 的 耳蜗 相 类 似 的 频率 调谐 电 
路 。 其 他 研究 人 员 正 在 研究 硅 突 触 ， 包 括 模仿 突 触 可 塑性 的 硅 机 制 ， 以 
便 可 以 在 硅 必 片上 实现 长 期 的 权重 变化 。 来 自 Carverland 研 究 小 组 的 学 
生 从 那 时 开始 走出 实验 室 ， 进 入 了 世界 各 地 的 工程 学 院 。 


1993 年 ， 殉 里 斯 托 弗 . 科 赫 、 罗 德 尼 .道格拉斯 和 我 成 立 了 由 NSF 答 
助 的 神经 形态 工程 研讨 会 ， 每 年 7 月 在 科罗拉多 州 特 柳 赖 德 CTelluride) 
市 举行 为 期 三 周 的 会 议 。 这 个 研讨 会 是 国际 性 的 ， 参 会 的 学 生 和 教师 来 
自 不 同 的 背景 和 国家 。 与 大 多 数 讲座 多 于 实践 的 研讨 会 不 同 ， 特 柳 赖 德 
研讨 会 的 房间 里 挤 满 了 用 微 蕊 片 来 构建 机 器 人 的 学 生 。 不 过 有 一 个 问 
题 ， 将 视网膜 芯片 连接 到 视觉 皮层 芯片 ， 再 将 皮层 芯片 连接 到 电机 输出 
必 片 ， 这 一 步骤 需要 用 到 大 量 的 连 线 。 

用 放电 脉冲 (spikes〉 连接 模拟 大 规模 集成 电路 心 片 则 要 好 得 多 ， 
我 们 的 大 脑 通 过 白质 的 长 距离 轴 突 传输 信息 也 是 利用 了 这 种 方式 ， 这 些 
白质 构成 了 我 们 一 半 的 大 脑 皮层 。 但 将 视网膜 蕊 片 和 皮层 芯片 通过 上 百 
万 根 线 连接 起 来 却 完全 行 不 通 。 扯 运 的 是 ， 快 速 的 数字 逻辑 可 以 用 来 使 
每 根 导 线 多 路 复 用 ， 让 许多 视网膜 细胞 能 够 与 同一 导线 上 的 多 个 皮层 细 


胞 进行 通信 。 这 一 过 程 是 通过 发 送 心 片 ， 把 每 一 个 原始 脉冲 的 地 址 发 送 
给 接收 已 片 来 实现 的 ， 接 收 蕊 片 解码 地 址 ， 并 路 由 到 与 它 相 连接 的 相应 
单元 ， 即 所 谓 的 “地 址 事件 表示 ” Caddress event representation) ) 。 


托 拜 厄 斯 -德尔 布 吕 克 〈( 见 图 14-4) 是 卡 弗 : 米 德 的 研究 生 之 一 ， 三 
他 现在 在 苏黎世 大 学 神经 信息 学 研究 所 工作 。2008 年 ， 他 开发 了 一 种 非 
党 成 功 的 脉冲 视网膜 必 族 ， 叫 作 “ 动 态 视 觉 传 感 器 ”(Dynamic Vision 
Sensor， 以 下 简称 DVS) 。 这 个 心 卢 可 以 简化 一 些 视觉 任务 ， 例 如 跟踪 
移动 物体 ， 或 用 两 台 摄 像 机 对 物体 进行 深度 定位 〈 见 图 14-4， 下 图 ) 。 
三 传统 的 数码 相机 是 基于 图 像 帧 的 ， 录 制 视频 的 过 程 就 是 存储 一 系列 间 
隔 大 约 26 坚 秒 的 图 像 。 这 种 做 法 会 丢失 帧 与 帧 之 间 的 信息 : 设想 一 个 旋 
转 的 托盘 ， 转 速 是 每 秒 200 转 ， 盘 上 有 一 个 光 点 随 盘 转动 ; 该 光 点 会 在 
每 一 帧 中 旋转 5 次 ， 但 是 数码 相机 的 回放 效果 看 起 来 像 一 个 静态 环 〈 见 
方 框 14.1) 。 相 比 之 下 ， 德 尔 布 吕 元 的 脉冲 摄影 机 可 以 以 微 秒 级 的 精度 
跟踪 移动 点 ， 并 且 只 需 很 少量 的 脉冲 ， 因 此 速度 很 快 ， 而 且 效率 很 高 。 
作为 第 一 款 基于 脉冲 和 触发 定时 的 新 一 代 传感器 ，DVS 相 机 具有 很 大 的 
潜力 ， 可 以 改善 包括 自动 驾驶 汽车 在 内 的 许多 应 用 的 性 能 。2013 年 特 柳 
赖 德 研讨 会 的 其 中 一 个 项 目 ， 就 是 用 它 来 阻挡 来 自 架 面 的 进 球 ( 见 图 
14-5) 。 


* E csa OusCUdd3: 


E ab 


Se), 5 

L UM 
a 

= 

1 


xr <a 


LB CL2 
1:9") CL3 


->> 
os bey 
DEPT 


eeeeceeeeeeee* 


图 14-4 动态 视觉 传感器 (DVS) 。 CEA) HH EM 德尔 布 吕 ERINTI E 


大 学 神经 信息 学 研究 所 发 明 的 DVS 相 机 。 这 种 相机 采用 了 专用 芯片 ， 可 以 异步 发 射 脉 
冲 ， 而 不 是 像 数 码 相 机 那样 按 帧 采集 图 像 。〈 下 图 ) 相机 的 镜头 将 图 像 聚焦 在 模拟 
超大 规模 集成 电路 芯片 上 ， 芯 片 会 对 每 个 像素 上 光 强 度 的 增加 或 减少 进行 检测 。 脉 
冲 沿 着 “开启 ” Con) 导线 发 出 正 增 量 ， 并 沿 着 “关闭 ” (off) FRAG AVE. 
输出 脉冲 由 电路 板 处 理 ， 电 路 板 会 显示 出 例如 方 框 14. 1 中 的 脉冲 图 案 。 你 的 视网膜 
是 一 台 非 常 先进 的 DVS 相 机 。 来 自视 网 膜 的 脉冲 图 案 在 大 脑 中 发 生 了 转换 ， 但 该 模式 
仍然 保留 了 脉冲 一 一 你 的 大 脑 中 并 不 存在 任何 完整 的 图 像 ， 即 使 你 是 以 这 种 方式 感 
知 世界 的 。 上 图 来 源 : HEM + 德尔 布 吕 克 。 下 图 来 源 : 三 星 。 


fE ERIDVSiR BLN AR, AERA SIP” Con) 通道 的 
脉冲 ， 黑 点 是 来 自 “ 关 ”(off〉 通道 的 脉冲 。 灰 色 表 示 没 有 脉冲 。 在 
左上 方 的 图 片 中 ， 可 以 检测 到 两 个 脸 部 ， 因 为 它们 在 26 坚 秒 的 帧 间 
BRA ACE Y ee eo). FE ESA CREE) 图 片 中 ， 斑 点 的 到 达 
时 间 由 灰 度 表示 ， 因 此 就 能 看 到 物体 的 移动 轨迹 。 左 下 方 图 片 中 的 
旋转 盘 以 每 秒 200 转 (rps) 的 速度 旋转 。 在 确 部 中 间 的 图 片 中 ， 轨 


迹 是 同上 移动 的 螺旋 。 右 下 方 螺旋 短暂 的 300 微 秒 切 放 中， 只 有 80 
个 脉冲 ， 通 过 测量 黑色 和 和 白色 脉冲 的 位 移 ， 并 除 以 时 间 间 隔 ， 很 容 
易 计 算出 速度 。 请 注意 ， 有 具有 26 室 秒 取 帧 周期 的 普 过 数码 相机 无 法 
跟随 以 200 赫 兹 旋转 的 点 ， 因 为 旋转 周期 为 5 又 秒 ， 并 且 每 个 帧 都 显 
示 了 一 个 环 。DVS 相 机 的 唯一 输出 是 一 串 脉冲 ， 就 像 视网膜 一 样 。 
这 是 表现 场景 的 有 效 方式 ， 因 为 大 部 分 像素 在 大 多 数 时 间 都 保持 不 
变 ， 而 每 个 脉冲 都 携 市 厦 有 用 的 信息 。 

图 片 来 源 : P. Lichtsteiner, C. Posch, and T. Delbruck, “A 128x128 
120 dB 15 hs Latency Asynchronous Temporal Contrast Vision 


Sensor, IEEE Journal of Solid-State Circuits 43, no. 2 (2008): 图 11。 资 
料 来 源 : FERED ERA S x. 


脉冲 神经 元 为 计算 领域 打开 了 新 的 机 会 。 例 如 ， 神 经 元 群体 中 放电 
脉冲 的 时 间 可 用 于 调整 存储 的 信息 类 型 。1997 年 ， 享 利 : 马 元 拉 姓 
(Henry Markram) 和 德国 的 伯 特 : 陡 殉 曼 (Ber Sakmann) 报道 说 ， 通 
过 对 突 触 的 输入 信号 和 突 触 后 神经 元 的 输出 信号 的 重复 配对 ， 他 们 能 够 
对 突 触 强度 进行 增 减 。 三 如 果 突 触 输入 放电 发 生 在 突 触 输出 放电 之 前 的 
20 吟 秒 窗 口内 ， 突 触 会 保持 长 期 增强 ， 但 如 果 突 触 输入 放电 的 重复 配对 
发 生 在 突 触 输出 放电 之 后 的 20 量 秒 窗口 内 ， 则 突 触 会 保持 长 期 衰减 〔 见 
图 14-6) 。 据 报道 ,“ 放 电 时 序 依赖 可 塑性 ”(Spike-timing-dependent 
plasticity， 简 称 STDP〉 曾 经 被 发 现 于 许多 物种 大 脑 中 的 不 同 部 位 ， 这 种 
可 塑性 可 能 对 事件 序列 在 脑 中 形成 长 期 记忆 起 着 重要 的 作用 ， 但 同样 重 
要 的 是 ， 它 很 好 地 解释 了 炙 布 的 假定 《在 第 7 章 中 已 经 进行 了 讨论 ) 。 


赫 布 可 塑性 的 普 遇 观点 是 ， 当 一 个 神经 元 的 输入 和 和 输出 同时 出 现 放 
电 脉 冲 时 ， 突 触 的 强度 会 增加 ， 这 是 一 种 重合 检测 的 形式 。 但 是 赫 布 实 
际 上 次 的 是 ,“ 当 细胞 A 的 轴 突 接近 到 足以 激发 细胞 B， 并 反复 或 持续 参 
与 放电 激发 细胞 B 时 ， 细 胞 的 一 些 生 长 过 程 或 代谢 变化 会 及 生 在 其 中 一 


个 或 两 个 细胞 中 ， 使 得 细胞 A《〈 作 为 激发 细胞 B 的 细胞 之 一 ) 激发 细胞 B 
的 效率 增加 ”。 二 如 果 细 胞 A 对 激发 细胞 B 有 页 献 ， 那 么 细胞 A 必须 在 细 
胞 B 中 的 “ 受 激 发 脉冲 ?之 前 发 射 一 个 "激发 脉冲 "”。 正 如 赫 布 所 描述 的 ， 
这 种 情况 提示 了 一 种 因果 关系 ， 而 不 仪 仪 是 相关 性 。 尺 管 赫 布 没有 对 降 
低 突 触 强度 的 条 件 进行 描述 ， 但 当 输 入 放电 脉冲 发 生 在 输出 放电 脉冲 之 
后 时 ， 输 入 脉冲 残 不 太 可 能 导致 输出 神经 元 发 生 脉冲 。 如 果 从 长 远 来 
看 ， 突 触 强度 的 增强 和 降低 必须 达到 平衡 ， 那 么 这 时 断 开 突 触 是 讲 得 通 
的 。 


图 14-5 2013 年 ， 特 柳 赖 德 神经 形态 工程 研讨 会 中 的 神经 形态 守门 员 。 (上 图 ) 
Fopefolu Folowosele ( 左 侧 ) 在 测试 神经 形态 守门 员 【〔 右 侧 ) 。 其 他 学 生 和 他 们 的 
项 目 可 以 在 背景 中 看 到 。 (下 图 ) 德尔 布 吕 克 的 DVS 相 机 能 驱动 油漆 搅拌 棒 转 动 。 这 
个 守门 员 的 动作 比 学 生 要 快 得 多 ， 并 且 成 功 地 守住 了 每 一 个 射门 。 我 也 尝试 过 ， 但 
是 未 能 进 球 。 图 片 来 源 : HHI - ERASER. 
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图 14-6 放电 时 序 依赖 的 可 塑性 (STDP) 。 (AA) 伟大 的 西班牙 神经 解剖 学 家 圣 选 
X, e -FA (Santiago Ram6ny Cajal) 绘制 的 皮层 中 的 锥 体 神经 元 。 神 经 元 
A 的 输出 轴 突 通过 突 触 与 神经 元 6 的 树 突 接触 〈 如 箭头 所 示 ) 。 (4A) 与 左 侧 图 中 
类 似 的 两 个 神经 元 被 用 电极 穿刺 并 施加 刺激 ， 使 两 个 神经 元 产生 的 尖峰 之 间 存 在 时 
间 延 迟 。 当 神经 元 的 输入 放电 与 输出 放电 重复 配对 时 ， 如 果 突 触 前 神经 元 放电 在 突 
触 后 神经 元 放电 之 前 20 毫 秒 的 窗口 内 到 达 ， 则 突 触 强 度 (HEED) 增加 。 如 果 顺 序 
相反 ， 则 强度 降低 。 左 图 来 源 : Ram6 ny Cajal, S. Estudios Sobre la 
Degeneraci ón y Regeneraci óndel Sistema Nervioso(Moya, Madrid, 1913- 
1914), E281. GARR: G. Q. Bi and M. M. Poo, “Synaptic Modifications 
in Cultured Hippocampal Neurons: Dependence on Spike Timing, Synaptic 
Strength, and Postsynaptic Cell Type, " Journal of Neuroscience 18 (1998): 
10464-10472， 图 7。 资 料 来 源 : HRA. 


在 特 柳 赖 德 神经 形态 研讨 会 上 ， 模 拟 超大 规模 集成 电路 倡导 者 和 数 
字 超 大 规模 集成 电路 设计 师 之 间 存 在 着 一 场 持续 不 断 的 争论 。 模 拟 超大 
规模 集成 电路 必 片 有 许多 优点 ， 例 如 所 有 电路 并 行 工作 时 功 耗 非常 低 ， 


但 也 存在 缺点 ， 例 如 由 于 唱 体 管 的 多 样 性 ， 在 设计 图 上 相同 的 晶体 管 产 
生 的 电流 可 以 相差 +50%。 相 比 之 下 ， 数 字 超 大 规模 集成 电路 虽然 比较 
精确 ， 速 度 更 快 ， 设 计 更 容易 ， 但 需要 消耗 更 多 的 功率 。 德 尔 门 德 拉 . 
莫 德 哈 〈Dharmendra Modha) 在 加 利 福 尼 亚 州 阿尔 马 登 市 《Almaden ) 
IBM 研 究 所 的 团队 开发 了 一 丈 数 字 心 片 ， 包 含 4096 个 处 理 核心 和 54 亿 个 
晶体 管 ， 被 称 为 “True North". 三 尽管 该 芯片 可 以 被 配置 来 实现 模拟 100 
万 个 突 触 神经 元 ， 并 连接 2.68 亿 个 突 触 ， 却 仅仅 需要 消耗 70 坚 瓜 的 功 
率 。 但 是 这 些 突 触 的 强度 是 固定 的 ， 这 种 不 变性 限制 了 对 许多 重要 特征 
的 实现 ， 如 强度 的 弱化 或 增强 。 


其 有 脉冲 神经 元 的 网 络 还 有 男 一 个 缺 护 ， 即 标 度 下 降 。 脉 冲 时 间 是 
不 连续 的 ， 而 梯度 下 降 要 求 神 经 元 的 输入 输出 值 在 时 间 上 有 是 连续 的 。 这 
就 限制 了 可 训练 脉冲 网 络 的 复杂 性 。 梯 度 下 降 在 训练 "输出 随 输 入 连续 
变化 ”神经 元 的 深 展 网 络 方面 取得 了 己 大 成 功 ， 神 经 元 的 输出 函数 是 可 
微分 的 ， 这 是 反 向 传播 学 习 算 法 的 基本 特征 。 尺 管 在 不 可 微分 脉冲 网 络 
中 ， 脉 冲 的 发 生 不 具有 连续 性 ， 但 是 我 实验 室 的 博士 后 研究 员 本 : 哈 
(Ben Huh) 最 近 克 服 了 这 个 缺 扣 ， 他 找到 了 一 种 方法 ， 能 够 让 脉冲 神 
经 元 的 循环 网 络 模型 使 用 梯度 下 降 ， 在 长 时 间 友 列 上 执行 复杂 的 任务 。 
三 这 一 成 果 打 开 了 深度 脉冲 网 络 的 大 门 。 


摩尔 定律 的 终结 


正如 摩尔 定律 预测 的 那样 ， 自 20 世 纪 50 年 代数 字 计 算 机 发 明 以 来 ， 
计算 机 的 能 力 增 加 了 超过 1 万 亿 倍 。 从 来 没有 技术 能 以 如 此 高 的 数量 级 
呈 指 数 增 长 ， 计 算 机 已 经 融入 了 几乎 所 有 制造 设备 ， 从 玩具 到 汽车 。 计 
算 机 可 以 目 动 调节 现代 望远镜 的 目 适 应 光学 系统 ， 以 最 大 限度 地 提高 其 
DIERE: 它们 可 以 分 析 现 代 显 微 镜 捕获 的 光子 ， 以 超 分 辩 京 定位 分 子 。 
当今 的 每 一 个 科技 领域 都 依赖 于 超大 规模 集成 电路 必 方 。 

卡 弗 : 米 德 预 汕 ， 这 些 必 片 的 升级 是 基于 缩小 元 件 间 线 宽 的 可 能 


性 ， 但 是 目前 的 宽度 已 经 达到 了 物理 极限 : 导线 中 的 电子 太 少 ， 可 能 会 
浊 漏 或 被 随机 电压 阻挡 ， 甚 至 使 数字 电路 都 不 再 可 靠 。 三 摩尔 定律 要 终 
结 了 吗 ? 我 们 需要 完全 不 同 的 体系 结构 来 继续 提高 处 理 能 力 ， 这 种 结构 
能 够 不 依赖 于 数字 设计 的 完美 精度 。 正 如 混合 动力 汽车 将 电动 机 的 效率 
与 汽油 发 动机 的 续航 结合 起 来 一 样 ， 混 合 数字 和 神经 形态 设计 正在 兴 
起 ， 能 够 将 神经 形态 心 片 的 计算 低 功 耗 与 通信 数字 心 片 的 融 带 宽 相 结 
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摩尔 定律 的 表述 仅仅 是 基于 芯片 的 处 理 能 力 。 随 着 并 行 架 构 在 随后 
50 年 内 的 不 断 发 展 ， 摩 尔 定律 应 该 被 考虑 了 能 量 和 吞吐 量 的 定律 所 取 
代 。 在 俄勒冈 州 波 特 兰 举办 的 英特尔 2018 NICE 大 会 上 ， 来 自 美国 和 欧 
洲 的 研究 人 员 展 示 了 三 款 新 的 神经 形态 必 片 : 来 自 英 特 尔 的 Loihi 研 究 忆 
片 ， 以 及 由 欧洲 人 类 大 脑 项 目 支 持 的 两 款 第 三 代 蕊 片 。 随 着 大 规模 并 行 
体系 结构 的 发 展 ， 能 够 在 这 些 体系 结构 上 运行 的 新 算法 也 陆续 被 创造 出 
来 。 但 是 这 些 体系 结构 中 的 蕊 片 需要 交流 信息 ， 这 也 是 第 15 章 所 要 讨论 


的 内 容 。 
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15 
信息 科学 


我 从 来 没有 想 过 ， 有 一 天 我 会 成 为 无 所 不 知 的 人 ， 而 事实 上 ， 我 和 
现在 任何 能 上 网 的 人 都 做 到 了 。 信 息 在 互联 网 上 以 光速 传播 ， 从 互联 网 
上 获取 信息 比 从 书架 上 的 书 里 获取 信息 更 方便 。 我 们 生活 在 各 种 形式 的 
言 恩 爆 炸 的 时 代 。 科 学 仪器 ， 从 望远镜 到 显微镜 ， 搜 集 的 信息 量 远 超 现 
在 训练 机 器 学 习 所 使 用 的 数据 集 。 美国 国家 安全 局 使 用 机 器 学 习 来 过 渡 
他 们 从 各 处 搜集 到 的 信息 。 经 济 活动 走 向 了 数字 化 ， 许 多 公司 对 有 编程 
技能 的 人 才 的 需求 量 与 日 俱 增 。 在 世界 从 工业 经 济 走 疝 信 息 经 济 的 同 
时 ， 教 育 和 职业 培训 也 必须 适应 这 一 变化 。 这 一 切 已 经 对 我 们 的 世界 产 
生 了 深远 影响 。 


用 字 节 丈量 世界 


1948 年 ， 在 AT&T 公 司 位 于 新 泽 西 州 默 里 山 (Muray Hil 的 贝尔 
实验 室 里 ， 克 劳 德 .香农 (Claud Shannon， 见 图 15-1) 提出 了 一 种 非常 
简单 却 很 微妙 的 信息 理论 ， 来 理解 有 噪声 的 电话 线 里 的 信号 传输 问题 。 
三 香农 的 理论 推动 了 数字 通信 的 革命 ， 并 为 移动 电话 、 数 字 电 视 以 及 互 
联网 的 诞生 黄 定 了 基础 。 打 电话 的 时 候 ， 你 的 声音 被 编码 为 “比特 ”， 通 
过 无 线 电波 和 数字 电缆 传送 到 接收 端 ， 接 收 端 再 将 比特 解码 并 转化 为 声 
音 。 信 息 论 给 通信 信道 〈 图 15-2) 的 带宽 确定 了 上 限 ， 逼 近 香 农 极限 的 
不 同 编码 也 被 设计 了 出 来 。 


图 15-1 克 劳 德 。 香 农 与 电话 交换 网 络 ( 了 照片 拍摄 于 1963 年 前 后 ) 。 他 发 明 信 息 论 时 
仍 在 AT&T 贝 尔 实 验 室 任职 。 图 片 来 源 : Alfred Eisenstaedt/The LIFE Picture 
Collection/Getty Images. 
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图 15-2 香农 的 通信 系统 模型 。 该 消息 被 编码 成 二 进 制 比 特 ， 并 沿 着 一 条 可 能 是 电话 
线 或 无 线 电 波 的 信道 向 下 传输 ， 在 终端 被 接收 和 解码 。 以 “每 秒 比 特 数 ”为 单位 的 
信道 容量 取决 于 系统 中 的 噪声 量 。 

管 世 界 上 的 信息 EAEE 多 样 ， 有 一 种 测量 方式 却 能 够 精确 测量 
M 的 大 小 。 信 息 的 单位 是 二 进 制 比特 ， 每 个 比特 只 能 


0 或 1 两 种 值 。 一 个 字 节 包含 8 个 比特 。 高 质量 照片 的 信息 内 容 以 兆 字 市 
或 者 说 百 万 字 市 计数 。 手 机 的 存储 信息 以 吉 子 节 CGB) 或 称 干 光 字 市 
计数 。 网 络 上 的 数据 以 拍 字 节 PB) REAN SEI. 


用 数学 忠 维 解决 通信 难 匮 


在 IEEE (电气 和 电子 工程 师 协 会 的 年 度 国际 研讨 会 上 ，IEEE 信 
恩 理 论 学 会 ITS) 都 会 颁发 “元 劳 德 :香农 奖 ”"， 这 是 表彰 这 一 领域 杰出 
研究 成 果 的 高 级 荣誉 。 在 1985 年 英国 布 莱 顿 举办 的 该 学 会 的 会 议 
上 ，“ 香 农 奖 ”被 颁发 给 了 南 加 州 大 学 的 所 罗 门 :哥伦布 (Solomon 
Golomb， 图 15-3) ， 他 在 移 位 寄存 器 序列 (shift register sequences) 方 
面 的 工作 为 现代 数字 通信 奠定 了 基础 。' 二 移 位 寄存 器 序列 是 一 种 生成 0 
和 1 的 长 伪 随 机 序列 的 算法 。 每 次 你 用 手机 打 电 话 时 ， 都 使 用 了 移 位 寄 
存 器 序列 。 哥 伦 布 展示 了 如 何 使 用 移 位 寄存 器 序列 对 信号 进行 高 效 编 
码 ， 然 后 可 以 在 接收 器 处 传输 和 解码 。 如 果 将 手机 和 其 他 通信 系统 产生 
移 位 寄存 器 序列 的 次 数 昧 加 起 来 ， 得 到 的 数字 将 是 怀 人 的 : ae Ph 
次 ， 即 102 次 (1,000,000,000,000,000,000,000,000,000)。 > 


图 15-3 所 罗 门 。 哥 伦 布 在 2013 年 获得 了 美国 国家 科学 奖章 。 他 对 移 位 寄存 器 序列 进 
行 的 数学 分 析 使 人 类 能 够 与 深 空 探 测 器 通信 ， 当 时 他 在 位 于 帕 萨 迪 纳 (Pasadena) 

的 加 州 理工 学 院 喷气 推进 实验 室 (JPL) 工作 ; 移 位 寄存 器 序列 后 来 被 瞪 入 到 手机 通 
信 系 统 中 。 每 当 你 使 用 手机 的 时 候 ， 都 在 使 用 他 的 数学 代码 。 图 片 来 源 : 南 加 州 大 


学 。 


我 曾 问 过 所 罗 门 :哥伦布 (也 是 我 的 岳父 ) 他 是 如 何 得 到 如 此 优雅 
的 方案 来 解决 通信 问题 的 。 他 说 这 是 来 自 他 在 数论 方面 的 训练 ， 这 是 数 
学 中 最 抽象 的 部 分 之 一 。 当 他 在 巴尔 的 摩 的 Glenn L. Martin: rd fice 30] 
实习 生 时 ， 就 曾 接触 过 移 位 寄存 器 序列 。1956 年 ， 在 哈佛 大 学 获得 数论 
专业 《一 种 高 度 抽象 的 数学 领域 ) 的 博士 学 位 后 ， 他 到 了 加 州 理 工学 院 
喷气 推进 实验 室 (Jet Propulsion Laboratory， 以 下 简称 JPL) 工作 。 在 那 
里 ， 他 担任 通信 组 的 负责 人 ， 并 从 事 空间 通信 工作 。 深 空 探 测 喜 被 发 送 
到 太阳 系 的 远 问 ， 但 返回 的 信号 微弱 且 嘲 杂 。 移 位 寄存 器 序列 和 纠 错 码 
大 大 改善 了 与 空间 探测 器 通信 的 效果 ， 相 同 的 数学 原理 更 是 为 现代 数字 
通信 葛 定 了 基础 。 

哥伦布 在 JPEL 的 时 候 曾 聘请 过 另 一 位 杰出 的 信息 理论 家 安德鲁 :维特 
LK (Andrew Viterbi〉， 并 将 他 介绍 给 了 从 麻 省 理工 来 JPL 休 学 术 年 假 的 
厄 文 - 雅 各 布 (Irwin Jacobs) 。 几 十 年 后 的 1985 年 ， 维 特 比 和 雅 各 布 联 


手 创 建 了 高 通 ， 从 此 彻底 改变 了 手机 技术 。 该 公司 使 用 移 位 寄存 器 序列 
将 信息 分 布 在 很 宽 的 频 珊 上 进行 传播 ， 这 比 使 用 单一 频率 的 通信 方式 更 
有 效 。 该 想法 的 一 个 简单 版 本 可 以 追溯 到 海带 : 拉 玛 (Hedy Lamarr) 
〈( 见 图 15-4) ， 她 是 一 位 电影 活 员 兼 发 明 家 ， 于 1941 年 与 他 人 共同 分 享 
了 跳 频 〈frequency hopping) 技术 的 专利 ， 这 是 她 在 第 二 次 世界 大 成 期 
间 为 盏 方 开发 的 安全 通信 系统 。 三 哥伦布 离开 JPL 加 入 南 加 州 大 学 后 ， 

爱德华 :波斯 纳 ( 就 是 创建 了 NIPS 的 爱德华 :波斯 纳 ) 接管 了 他 的 团队 ， 

但 哥伦布 仍然 在 继续 为 他 的 前 PL 团队 提供 支持 和 建议 。 
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和 银幕 上 的 明星 ， 也 是 跳 频 技术 的 联合 发 明 人 之 一 。 该 技术 与 军 方 和 许多 手机 中 使 
用 的 扩 频 通信 有 关 。 

移 位 寄存 器 序列 背后 的 数学 是 数论 中 比较 深奥 的 部 分 。 当 哥伦布 从 
哈佛 大 学 获得 博士 学 位 时 ， 他 的 博士 生 导 师 和 当时 的 大 多 数 数 学 家 都 相 
信 ， 纯 数学 永远 不 会 有 任何 实际 的 应 用 。 剑 桥 学 者 哈代 〈G. H. Hardy) 
在 其 富 于 影响 力 的 著作 《一 位 数学 家 的 着 歉 》 (A Mathematician's 
Apology) 三 中 分 享 了 这 种 观点 。 他 宣称 “好 ”的 数学 必须 是 纯粹 的 ， 而 


应 用 数学 是 “无 趣 的 ”。 但 数学 只 是 数学 本 身 ， 并 没有 纯粹 和 应 用 之 分 。 
一 些 数学 家 可 能 希望 他 们 的 数学 是 纯粹 的 ， 但 他 们 无 法 阻止 它 解决 现实 
世界 中 的 实际 问题 。 事 实 上 ， 哥 伦 布 的 职业 生涯 主要 是 通过 找到 * 纯 数 
学 ”中 正确 的 工具 来 解决 实际 问题 而 被 定义 的 。 
” ”哥伦布 还 友 明 了 数学 游戏 。 他 的 书 《 多 格 骨 夏 》 (Polyominoes) 
引入 了 包含 许多 个 正方 形 的 各 种 形状 ， 扩 展 了 只 有 两 格 正方 形 的 多 米 
诺 骨 牌 。 马 丁 : 加 德 纳 (Marin Gardner) 在 《科学 美国 人 》 的 “数学 游 
戏 ” 专 栏 中 推广 了 多 格 骨 牌 。 四 格 骨 牌 〈Tetrominoes) ， 是 由 四 个 方块 
组 成 的 形状 ， 俄 罗斯 方块 的 灵感 就 来 源 于 此 。 俄 罗斯 方块 是 一 蒜 会 令 人 
ERATE, VOR AME TARR AY POR, BOR ETT S| St BER 
部 的 插 槽 。 多 格 骨牌 至 今 仍 然 是 一 种 流行 的 棋盘 游戏 ， 并 且 在 数学 的 一 
个 子 领域 里 引发 了 一 系列 有 趣 的 组 合 问 题 。 

哥伦布 也 是 研究 《圣经 》 的 学 者 ， 会 说 几 十 种 语言 ， 包 括 日 语 和 普 
通话 。 比 阿 特 丽 斯 曾经 带 给 他 道格拉斯 :上 霍 夫 斯 塔 特 (Douglas 
R.Hofstadter) JE GJER, KER EH: 集 异 壁 之 大 成 》 
(Gédel,Escher, Bach: An Eternal Golden Braid) 的 初版 。 他 打开 卷首 ， 
标题 说 这 是 十 希 伯 来 语 《 创 世 记 》 的 前 20 行 。“ 首 先 ， 它 是 颠倒 的 。” 他 
说 ， 然 后 把 书 转 过 来 , “其 次 ， 这 是 古 撒 玛 利 亚 语 ， 而 不 是 古 希 伯 来 
语 。 第 三 ， 这 不 是 《 创 世 记 》 的 前 20 行 ， 只 是 《 创 世 记 》 前 20 行 每 行 的 
前 7 个 字 。” 他 继续 读 下 去 ， 并 翻译 了 这 上 段 经 文 。 

克 萎 德 . 香 农 参加 了 1985 年 在 布 莱 顿 举行 的 ITS 座 谈 会 ， 哥 伦 布 在 会 
上 做 了 一 场 香农 讲座 。 这 是 香农 继 1972 年 自己 的 那 次 讲座 后 ， 参 加 的 唯 
一 一 次 香农 讲座 。 


预测 是 如 何 产生 的 


在 通信 系统 中 ， 无 论 是 空间 上 还 是 时 间 上 ， 变 化 都 具有 很 高 的 信息 


价值 。 强 度 均匀 的 图 像 和 没有 变化 的 信号 一 样 ， 几 乎 不 提供 任何 信息 。 
回 大 脑 发 送信 号 的 传感器 主要 用 来 检测 变化 ， 我 们 已 经 在 第 5 章 的 视 网 
膜 和 第 14 章 中 托 拜 所 斯 -德尔 布 吕 克 的 DVS 相 机 中 看 到 了 一 些 例子 。 一 
日 在 视网膜 上 稳定 下 来 ， 图 像 会 在 几 秒 钟 后 消失 。" 二 尽管 我 们 没有 意识 
到 这 一 点 ， 我 们 的 眼睛 进行 的 微小 跳动 ， 即 微 跳动 Cmicrosaccades) ， 
每 秒 钟 都 会 发 生 几 次 ， 每 次 跳动 都 会 刷新 我 们 大 脑 内 部 针对 外 部 世界 所 
搭建 的 模型 。 当 外 部 世界 的 某 些 事物 发 生 移动 时 ， 视 网 膜 会 及 时 间 上 报 
告 ， 它 们 的 报告 还 更 新 了 大 脑 的 外 界 模 型 ， 如 图 15-5 所 示 。 大 脑 的 模型 
是 一 个 层级 结构 的 模型 ， 传 入 的 感官 信息 和 模型 期 望 值 之 间 的 比较 发 生 
在 多 个 层次 上 。( 二 明亮 的 闪光 或 巨大 的 噪声 ， 通 过 自 下 而 上 地 突显 差 
异 ， 立 刻 引 起 了 你 的 注意 。 但 是 你 通过 对 记忆 自 上 而 下 的 比较 ， 注 意 到 
更 面 上 的 某 些 东西 在 更 高 的 层级 上 发 生 了 变化 。 所 有 这 些 在 大 脑 中 实时 
发 生 的 事情 ， 都 会 让 人 想起 卡 弗 : 米 德 的 口头 禅 , “时间 是 它 目 己 的 代 
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图 15-5 具有 层级 结构 的 预测 编码 框架 。 感 知 取决 于 对 早期 感官 事件 提取 的 规律 性 的 
期 望 。 在 这 个 框架 中 ， 由 较 高 层级 皮层 产生 的 当前 感知 信号 的 预测 来 自 E 和 R 群 体 之 


间 的 相互 作用 ， 并 且 被 反馈 到 下 面 的 层级 〈E 是 误差 单元 ，R 是 表征 单元 ) 。 只 有 预 
测 误差 会 向 前 传播 。 这 是 对 玄 姆 霍 诊 无 意识 推理 的 实现 。 图 片 来 源 : Gabor 
Stefanics, Jan Kreml á ček, and István Czigler, “Visual Mismatch 
Negativity: A Predictive Coding View, ” Frontiers in Human Neuroscience 8 
(2014): 666, W1. doi:10. 3389/fnhum. 2014. 00666. 
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推理 ， 或 目 上 而 下 生成 视觉 信息 以 消除 噪声 ， 填 充 不 完整 的 信息 ， 并 解 
释 视 觉 场景 。 三 例如 ， 一 个 熟人 的 照片 在 我 们 视网膜 里 是 有 单眼 深度 线 
索 的， 因为 我 们 熟悉 那个 人 的 实际 大 小 ， 并 且 具 备 视 网 膜 中 大 小 如 何 随 
着 距离 变化 的 经 验 。 在 更 高 的 认 知 水 平 上 ， 和 俯 姆 斯 .麦克 莱 兰 和 大 卫 , 和 鲁 
姆 哈 特 发 现 ， 当 字母 位 于 单词 中 时 ， 被 试 者 能 够 比 在 没有 语 境 的 非 单词 
环境 中 更 快 地 将 它们 识别 出 来 。 三 他 们 的 并 行 处 理 模型 展现 出 了 类似 的 
行为 ， 这 使 得 两 位 研究 人 员 相 信 ， 他 们 正在 沿 厦 理解 信息 如 何在 我 们 的 
大 脑 中 呈现 的 正确 轨道 上 前 行 。 


深度 理解 大 脑 


2013 年 4 月 2 日 由 和 白宫 发 起 的 美国 *BRAIN 计 划 ”( 见 图 15-6) 的 目 
标 ， 是 创造 新 的 神经 技术 ， 以 加 速 我 们 对 “终极 信息 机 器 >， 即 大 脑 的 功 
能 和 障碍 的 进一步 理解 。 正 如 NIPS 会 议 将 许多 学 科 的 研究 人 员 聚 集 在 一 
起 创建 有 学 习 能 力 的 机 器 一 样 ，“BRAIN 计 划 ” 正 在 将 工程 师 、 数 学 家 和 
物理 学 家 引入 神经 科学 领域 ， 以 改进 探测 大 脑 的 工具 。 随 着 我 们 对 大 
脑 ， 尤 其 是 关于 学 习 和 记忆 机 制 的 了 解 更 加 深入 ， 我 们 将 更 好 地 理解 大 
脑 功能 的 原理 。 


图 15-6 在 2013 年 4 月 2 日 白宫 宣布 “BRAIN 计 划 ” 之 前 ， 参 加 会 议 的 相关 机 构 和 研究 
所 的 代表 们 。 HABA) 科 维 理 基 金 会 首席 科学 官 全 美 永 〈Miyoung Chun) ， 她 
起 草 了 “BRAIN 计 划 ” 白 皮 书 ; 威廉 。 纽 索 姆 (William Newsome) ，NIH 关 

于 “BRAIN 计 划 ” 咨 询 委 员 会 的 联合 主席 ; 弗朗西斯。 柯林斯 (Francis 

Collins) ，NIH 院 长 ; 杰 拉 德 。 鲁 宾 (Gerald Rubin) ,霍华德 。 休 斯 医学 研究 所 
珍妮 痢 娅 研究 园区 (Janelia Research Campus of the Howard Hughes Medical 
Institute) 主任 ; 科 拉 。 马 雷 特 (Cora Marrett) ， 美 国 国家 科学 基金 会 主任 ; 巴 
拉克 。 奥 巴 马 (Barack Obama) ， 时 任 美 国 总 统 ; LR $442 (Amy Gutmann) , 
总 统 生 命 伦理 委员 会 主席 ; Fads + HA (Robert Conn) ， 科 维 理 基金 会 主席 ; 阿 
尔 提 。 普 拉巴 卡尔 (Arati Prabhakar) ，DARPA 主 任 ; 艾 伦 。 琼 斯 (Alan 

Jones) ， 艾 伦 脑 科学 研究 所 所 长 ; 我 ， 索 尔 克 研 究 所 。 图 片 来 源 : 托马斯 。 卡 里 尔 
(Thomas Kalil) 。 


虽然 在 分 子 和 细胞 水 平 上 对 大 脑 有 了 深入 的 了 解 ， 但 我 们 还 没有 在 
更 高 层次 上 对 大 脑 的 结构 有 一 个 同等 的 认 知 。 我 们 已 经 知道 ， 不 同类 型 
的 信息 被 分 散 到 皮层 的 不 同 部 分 进行 储存 ， 却 不 清楚 如 何 快速 检索 所 有 
分 散 的 信息 以 解决 复杂 的 问题 ， 例 如 我 们 能 够 通过 存储 在 皮层 不 同 部 位 
的 人 脸 的 图 像 ， 识 别 出 一 个 人 的 名 字 。 这 个 问题 与 大 脑 中 意识 的 起 源 密 
切 相 关 。 


我 的 实验 室 最 近 发 现 了 人 类 大 脑 在 睡眠 期 间 的 整体 活动 模式 ， 可 以 
让 我 们 了 解 大 脑 皮 层 中 广泛 分 布 的 信息 是 如 何 联系 在 一 起 的 。 在 恢复 性 
慢 波 睡眠 和 快速 眼 动 (REM) 睡眠 之 间 的 睡眠 阶段 ， 高 度 同 步 的 被 称 
NEIRE” Csleep ”spindles〉 的 时 空 振荡 ， 主 导 着 皮层 的 活动 。 这 些 10 
到 14 赫 兹 的 振荡 会 持续 几 秒 钟 ， 并 在 夜间 发 生 数 干 次 。 有 实验 证 据 表 
明 ， 在 我 们 睡觉 时 睡眠 锭 参与 了 记忆 的 巩固 。 通 过 来 自 人 脑 皮 层 的 记 
K KKH (Lyle Muller) 、 西 德 尼 : 卡 什 (Sydney Cash) . FF Le: 
皮 安 托尼 (Giovanni Piantoni) 、 多 米 尼克 :科勒 (Dominik Koller) ~ 3€ 
里 元 : 哈 格 伦 (Eric Halgren) 和 我 共同 发 现 ， 睡 眠 狂 在 皮层 中 是 一 种 无 
处 不 在 的 ， 扫 过 皮层 所 有 部 分 的 电 活动 的 循环 行 波 〈 图 15-7) 。 三 我 们 
称 它们 为 “ 莱 娅 公主 波 ”(Princess Leia Waves) ， 因 为 它们 看 起 来 跟 这 
MAEM RAY RR (15-8) 。 我 们 推测 ， 睡 眠 狂 可 能 是 皮层 将 白天 获 
得 的 新 信息 ， 与 先前 分 布 在 皮层 中 的 记忆 相 结 合 的 一 种 方式 ， 加 强 了 它 
们 之 间 的 长 距离 连接 。 这 是 “BRAIN 计 划 ” 推 动 的 系统 神经 科学 层次 的 众 
多 研究 项 目 之 一 。 
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图 15-7 在 人 类 大 脑 皮层 中 的 循环 电子 行 疲 。 这 是 在 睡眠 锭 期 间 ， 从 皮层 表面 上 用 
8X8 网 格 电极 记录 下 来 的 图 像 。 睡 眠 锭 涉及 记忆 巩固 。 (A) BURGE Aa APT 
示 方 向 穿 过 皮层 侧 视 图 的 循环 行 波 ， 每 80 毫 秒 完 成 一 个 循环 。 这 一 过 程 在 夜间 会 重 
复数 千 次 。〈 右 ) 小 箭头 表示 循环 期 间 ， 在 皮层 表面 64 个 记录 点 上 行 波 移动 出 现 最 
大 增加 量 的 方向 。 图 片 来 源 : L. Muller, G. Piantoni, D. Koller, S. S. Cash, 
E. Halgren and T. J.Sejnowski, “Rotating Waves during Human Sleep 
Spindles Organize Global Patterns of Activity during the 

Night" Supplementary 7, subject 3, TPF. 4A: A2B, 4A: Al. 


图 15-8 Iži e RE (Carrie Fisher) 饰演 的 莱 娅 公主 ,巩固 了 对 1977 年 史诗 级 科 
幻 电 影 《星球 大 战 》 的 记忆 。 她 的 发 萝 很 像 睡眠 锭 期 间 穿 过 皮层 的 人 循环 流 场 ( 对 比 
图 15-7) o 


大 脑 的 操作 系统 


数字 计算 机 和 神经 网 络 的 体系 结构 不 同 。 在 数字 计算 机 中 ， 内 存 和 
CPU 在 空间 上 是 分 开 的 ， 并 且 内 存 中 的 数据 必须 依照 顺序 移动 到 CPU 
中 。 在 神经 网 络 中 ， 处 理 过 程 在 内 存 中 并 行进 行 ， 这 就 消除 了 内 存 和 处 
理 器 之 间 的 数字 瓶颈 ， 并 且 人 允许 大 规模 并 行 处 理 ， 因 为 网 络 中 的 所 有 单 
元 都 在 同时 工作 。 神 经 网 络 中 的 软件 和 硬件 之 间 也 没有 区 别 。 学 习 是 通 
过 修改 硬件 来 进行 的 。 

从 20 世 纪 80 年 代 开 始 ， 当 计算 机 集群 被 装配 在 一 个 机 架 中 时 ， 数 字 
计算 机 已 经 变 得 可 以 大 规模 并 行 了 。 最 早 的 并 行 计算 机 之 一 是 
Connection Machine, H7j/é-4 49): (Danny Hillis) 于 1985 年 设计 出 


来 ， 并 由 Thinking Machines 公 司 出 售 。 和 希 利 斯 是 一 位 工程 师 和 发 明 家 ， 
他 在 太 省 理工 学 院 接受 培训 时 ， 人 们 已 经 清楚 地 认识 到 ， 要 让 人 工 智能 
解决 非常 复杂 的 现实 世界 问题 ， 就 需要 更 多 的 计算 能 力 。20 世 纪 90 年 

代 ， 根 据 摩 尔 定律 ， 计 算 机 忆 片 上 的 品 体 管 数 量 持续 增加 。 我 们 有 可 能 
将 许多 处 理 单元 放置 在 同一 芯片 上 ， 许 多 芯片 放置 在 同一 电路 板 上 ， 许 
多 电路 板 放 置 在 同一 机 箱 中 ， 以 及 把 许多 机 箱 放 在 同一 个 房间 里 ， 结 果 
是 ， 如 今 地 球 上 最 快 的 计算 机 拥有 数 百 万 个 内 核 ， 并 且 每 秒 可 以 实现 数 
二 万 亿 次 操作 。 百 亿 亿 次 级 的 计算 正在 以 每 秒 10 亿 乘 10 亿 次 操作 的 形式 
出 现 。 


模拟 神经 网 络 可 以 最 大 限度 地 利用 这 种 大 规模 并 行 硬件 。 多 个 核心 
可 以 通过 编程 为 同一 个 网 络 模型 并 行 工 作 ， 这 就 大 大 加 快 了 处 理 速 度 ， 
但 也 会 导致 处 理 器 之 间 的 通信 延迟 。 为 了 减少 这 些 延 迟 ， 一 些 公司 正在 
构建 专用 数字 协 处 理 器 ， 这 将 极 大 地 加 速 网 络 模拟 ， 使 语音 和 视觉 等 认 
知 任务 成 为 单一 强大 的 指令 。 使 用 深度 学 习 网 络 蕊 片 的 智能 手机 将 变 得 
更 加 智能 化 。 


数字 计算 机 具有 将 我 们 与 硬件 分 开 的 操作 系统 〈 方 框 15.1) 。 当 我 
们 在 笔记 本 电脑 上 运行 文字 处 理 程序 ， 或 在 手机 上 使 用 应 用 程序 时 ， 操 
作 系 统 会 处 理 程序 的 细节 ， 例 如 将 按键 信息 放 到 内 存 的 哪个 位 置 ， 以 及 
如 何在 屏幕 上 显示 程序 输出 。 我 们 的 意识 在 大 脑 的 操作 系统 上 运行 着 应 
用 程序 ， 大 脑 操 作 系统 将 信息 的 内 容 、 位 置 ， 以 及 存储 方法 与 意识 隔离 
开 来 。 我 们 并 不 知道 大 脑 是 如 何 储存 我 们 一 生 积累 的 大 量 经 验 的 ， 也 不 
知道 这 些 经 验 如 何 塑造 我 们 的 行为 。 虽 然 有 可 能 明确 地 解释 一 些 经 验 ， 
但 我 们 所 理解 的 这 部 分 只 是 冰山 一 角 。 我 们 的 大 脑 如 何 管理 这 些 信息 仍 
然 是 个 这 。 如 宁 我 们 能 够 弄 清楚 大 脑 的 操作 系统 是 如 何 工作 的 ， 就 可 以 
基于 相同 的 一 般 原 则 来 组 织 大 数据 。 相 应 地 ， 意 识 也 可 以 被 解释 为 运行 
在 大 脑 操作 系统 上 的 应 用 程序 。 


生物 学 与 计算 科学 


言 县 爆炸 已 经 将 生物 学 转化 为 量化 科学 。 对 于 传统 生物 学 家 ， 除 了 
统计 学 入 门 课程 之 外 ， 通 第 只 需要 一 点 额外 的 数学 培训 就 能 够 分 析 他 们 
的 数据 ， 这 些 数据 很 少 ， 也 很 难 获得 。 在 2002 年 由 长 岛 冷 果 港 实验 室 举 
办 的 分 子 遗 传 学 研讨 会 上 ， 我 感觉 自己 就 像 一 条 离 了 水 的 鱼 ， 因 为 我 是 
唯一 一 个 做 计算 主题 演讲 的 人 。 在 我 前 面 演 讲 的 是 分 子 遗 传 学 家 勒 罗 伊 
: 胡 德 (Leroy Hood) ， 他 在 加 州 理 工学 院 工 作 了 多 年 。1987 年 我 在 加 州 
理工 学 院 休 学 术 年 假 时 ， 惊 讶 地 发 现 胡 德 的 实验 室 多 得 几乎 占据 了 整 栋 
大 楼 。 后 来 ， 他 搬 到 了 西雅图 ， 并 在 2000 年 联合 创立 了 系统 生物 学 研究 
所 。 这 一 新 的 领域 则 在 试图 了 解 细胞 内 所 有 分 子 相 互 作用 的 复杂 性 。 


15.1 
电子 计算 机 的 操作 系统 


操作 系统 对 在 计算 机 的 硬件 上 运行 的 程序 进行 控制 。 如 果 你 使 
用 的 是 个 人 电脑 (PC)〉， 那 么 操作 系统 通常 是 Windows; 如 果 你 使 
用 的 是 iPhone， 用 的 则 是 iOS 系 统 ， 大 多 数 服 务 器 运行 的 都 是 某 种 版 
本 的 UNIX。 操 作 系统 在 程序 需要 时 分 配 内 存 ; 它 也 可 以 在 幕后 跟 
踪 程 序 ， 使 用 称 为 “守护 程序 ”(daemons) 的 进程 在 后 台 运 行 ， 并 
跟踪 打印 机 和 显示 器 等 设备 。 操 作 系统 可 以 在 任何 硬件 上 工作 ， 使 


得 你 的 应 用 程序 可 以 移植 到 不 同 的 计算 机 上 。 


胡 德 在 演讲 中 提 到 ， 有 一 天 他 心血 来 潮 ， 想 知道 为 什么 他 实验 室 工 
资 系 统 里 的 计算 机 科学 家 比 生 物 学 家 要 多 。 他 推 新 次， 原因 在 于 生物 学 
己 成 为 一 门 信息 科学 ， 计 算 机 科学 家 对 如 何 分 析 信 息 的 了 解 要 远 远 超过 
生物 学 家 ， 而 生物 学 家 已 被 现代 技术 ， 例 如 基因 测序 ， 所 产生 的 大 量 数 
据 所 淹没 。 明 德 的 演讲 简直 是 为 我 做 了 最 好 的 铺垫 ， 我 当时 的 沽 讲 题目 
古 天 于 信息 如 何在 大 脑 中 神经 元 之 间 的 突 触 上 储存 的 。 


今天 ， 系 统 生 物 学 吸引 了 许多 计算 机 科学 家 和 物理 学 家 共同 分 析 和 
理解 DNA 测 序 产生 的 信息 ， 以 及 由 RNA 和 和 蛋白 质 控制 的 细胞 信号 。 一 
个 人 类 细胞 的 DNA 中 有 30 亿 个 碱 基 对 ， 含 有 细胞 生存 、 复 制 和 分 化 所 需 
的 所 有 信息 。 一 些 碱 基 对 是 制造 集 昌 质 的 模板 ， 基 因 组 的 其 他 部 分 包含 
一 个 抽象 代码 ， 对 发 育 过 程 中 使 用 的 基因 进行 调节 ， 以 指导 里 体 和 大 脑 
的 构建 。 大 脑 的 构建 有 可 能 是 宇宙 中 难度 最 高 的 构建 项 目 ， 它 是 由 DNA 
中 藤 入 的 算法 引导 的 ， 这 些 算 法 协调 了 大 脑 数 百 个 不 同 部 位 的 数 生 种 不 
同类 型 神经 元 之 间 的 连接 。 
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由 基础 科学 研究 发 展 出 来 的 科技 ， 通 常 需 要 50 年 才能 实现 商业 化 。 
20 世 纪 初 ， 由 相对 论 和 量子 理论 带 来 的 重大 发 现 ， 到 20 世 纪 的 后 半期 才 
推动 了 CD 播放 器 、GPS 以 及 电子 计算 机 的 诞生 。20 世 纪 50 年 代 发 现 的 
DNA 以 及 基因 序列 影响 了 当今 医药 和 综合 农业 领域 的 应 用 ， 这 些 应 用 到 
今天 仍 在 影响 经 济 的 发 展 。“BRAIN 计 划 ” 以 及 世界 上 其 他 大 脑 研 究 项 目 
带 来 的 发 现 ， 会 局 发 50 年 后 的 应 用 ， 这 些 应 用 现在 看 上 去 还 如 科 约 小 说 
一 般 遥 不 可 及 。 三 我 们 可 以 期 待 ， 到 2050 年 ， 人 工 智 能 会 拥有 能 和 我 们 
大 脑 相 媲美 的 操作 系统 。 哪 些 公司 、 哪 些 国家 会 掌握 这 种 科技 ， 取 决 于 
它们 现在 所 做 的 投资 和 所 下 的 赌注 。 
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生命 与 意识 


当 弗 明 西 斯 :元 里 元 的 母 杀 问 年 轻 的 殉 里 元 他 想 探究 什么 样 的 科学 
问题 时 ， 他 告诉 她 ， 目 己 只 对 两 个 问题 感 兴趣 : 生命 的 奥秘 和 意识 的 奥 
秘 。 三 克 里 克 显然 对 重要 的 事物 有 着 敏锐 的 感觉 ， 但 他 当时 可 能 没有 意 
识 到 这 些 问 题 的 困难 程度 。 他 的 母 杀 并 不 知道 ， 几 十 年 后 的 1953 年 ， 她 
的 儿子 和 詹姆斯: 沃 森 会 发 现 DNA 的 结构 ， 这 种 松散 的 线 状 体 最 终 将 揭 
开 生 命 的 一 个 重要 谜团 。 但 元 里 元 (图 16-1〉 并 不 满足 于 这 一 成 就 。 

元 里 元 在 1977 年 加 入 索 尔 元 研究 所 后 ， 重 新 拾 起 长 久 以 来 对 意识 的 
兴趣 。 他 决定 关注 视觉 意识 (visual awareness) 问题 ， 因 为 人 们 已 经 对 
大 脑 的 视 党 功能 区 有 了 深入 的 了 解 ， 而 了 解 视觉 感知 Cvisual 
perception) 的 神经 基础 也 将 为 探索 其 他 方面 意识 的 神经 基础 铺 平 着 
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图 16-1 弗朗西斯 。 克 里 克 和 他 的 麦 子 奥 迪 尔 、 女 儿 杰 套 琳 在 英国 剑桥 的 康 河上 划船 
(拍摄 于 1957 年 前 后 ) 。 图 片 来 源 : 索 尔 克 生 物 研究 所 。 

20 世 纪 80 年 代 ， 生 物 学 家 对 意识 研究 投入 的 热情 日 渐 消 退 ， 但 这 丝 
室 没 有 影响 克 里 坎 。 视 觉 感知 充满 了 难以 理解 的 约 想 和 谜团 ， 为 了 解释 
它们 在 解 训 学 和 生理 学 上 的 机 理 ， 死 里 死 推出 了 新 绪 的 “探照灯 假 
Wi” (searchlight hypothesis) 。 三 神经 节 细 胞 从 视神经 投射 到 丘脑 ， 后 
者 又 将 脉冲 传递 到 视觉 度 层 。 但 为 什么 神经 节 细 胞 不 能 直接 投 映 到 大 脑 
BME? 克 里 死 指出 ， 从 皮层 到 丘脑 区 域 的 反馈 投射 就 像 探 照 灯 一 样 ， 
可 能 会 突出 显示 部 分 图 像 ， 以 供 进一步 处 理 。 
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科学 家 克里斯托弗 : 科 赫 ， 他 们 一 起 发 表 了 一 系列 探索 “意识 的 神经 天 
HX" (neural correlates of consciousness， 简 称 NCC， 人 负责 产生 意识 觉 知 状 
态 的 大 脑 结 构 和 神经 活动 ) 的 论文 。 三 对 于 视觉 意识 ， 这 意味 着 要 发 现 
大 脑 不 同 部 位 神经 元 的 放电 特性 与 视觉 感知 之 间 的 相关 性 。 元 里 元 和 科 


赫 提 出 了 假设 ， 认 为 我 们 并 不 知道 在 初级 视觉 皮层 中 发 生 了 什么 三 一 一 
这 是 大 脑 皮 层 第 一 个 从 视网膜 接收 输入 的 区 域 ， 我 们 只 知道 在 视觉 上 及 层 
层级 结构 的 最 高 层 发 生 了 什么 〈 见 图 5-11) 。 这 种 假设 的 可 能 性 来 自 对 
双眼 苋 争 的 研究 ， 即 对 两 只 眼睛 呈现 两 种 不 同 的 图 有 末 ， 例 如 对 一 只 眼睛 
显示 垩 直 条 纹 而 对 为 一 只 眼睛 显示 水 平 条 纹 : 然而 ， 我 们 看 到 的 并 非 是 
两 幅 图 像 的 混合 图 像 一 一 事实 上 ， 视 觉 感 知 每 隔 儿 秒 束 会 在 不 同 图 像 之 
间 突 然 发 生 翻转 。 初 级 视觉 皮层 中 对 每 只 眼睛 做 出 反应 的 是 不 同 的 神经 
元 ， 不 管 哪个 图 像 是 被 有 意识 地 感知 到 的 。 然 而 ， 在 视觉 的 较 局 层级 
上 上 上， 许多 神经 元 只 对 感知 到 的 图 像 产 生 啊 应 。 因 此 ， 仪 因 一 个 神经 元 对 
感知 放电 ， 就 说 它 是 感知 的 神经 关联 ， 未 免 太 过 和 草率 。 显 然 ， 在 分 布 于 
视觉 层级 中 众多 互相 协调 工作 的 活跃 神经 元 中 ， 我 们 只 知道 其 中 的 一 些 
子 集 表征 了 什么 。 


2004 年 ， 加 州 大 学 洛杉矶 分 校医 学 中 心 的 科研 人 员 检 测 了 一 组 癫 病 
患者 的 脑 部 ， 试 图 探索 癫 病 发 作 的 病因 。 在 检测 过 程 中 ， 病 人 被 要 求 观 
察 一 系列 名 人 照片 。 植 入 大 脑 记忆 中 心 的 电极 可 以 记录 患者 对 照片 的 啊 
应 脉冲 。 其 中 一 名 患者 大 脑 的 一 个 神经 元 对 儿 幅 蛤 莉 : 贝 瑞 的 照片 和 她 
的 名 字 《 图 16-2) 做 出 了 强烈 的 有 反应， 但 对 比尔 :克林顿 、 朱 莉 娅 : 罗 伯 
茨 的 照片 或 其 他 名 人 的 名 字 却 无 动 于 囊 。 三 同时 ， 该 实验 也 发 现 了 对 其 
他 名 人 、 特 定 对 象 ， 以 及 悉尼 歌剧 院 等 建筑 物 能 做 出 反应 的 神经 元 。 


(A) 


(B) 
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图 16-2 哈 莉 。 贝 瑞 细胞 。 从 患者 的 海马 体 中 单个 神经 元 记录 下 的 对 照片 的 反应 。 每 
张 照 片 下 显示 了 来 自 6 次 单独 试验 的 放电 脉冲 〈 蓝 色 标 记 点 ) ， 以 及 平均 值 (直方 

图 ) 。 (A) 哈 荐 。 贝 瑞 的 照片 和 她 的 名 字 引 发 了 一 波 脉冲 ; (B) 而 其 他 女 演员 的 
照片 和 她 们 的 名 字 却 没有 。 哈 莉 。 贝 瑞 出 演 了 2004 年 的 动作 超级 英雄 电影 《 猫 女 》 

(图 3) 。 图 片 来 源 : A. D. Friederici and W. Singer, “Grounding Language 

Processing on Basic Neurophysiological Principles，”Trends in Cognitive 
Sciences 19, no. 6 (2015): 329 - 338， 图 1。 


由 加 州 大 学 洛杉矶 分 校 的 伊 扎 元 : 福 瑞 德 (Itzhak Fried) 和 克 里 斯 托 
弗 ` 科 赫 领 导 的 研究 小 组 发 现 的 神经 元 ， 在 50 年 前 首次 可 以 记录 猫 和 猴 
子 大 脑 中 的 单个 神经 元 时 ， 惑 已 经 被 预测 到 了 。 研 究 人 员 认 为 ， 在 大 脑 
皮层 视觉 区 域 的 层级 结构 中 ， 神 经 元 的 层级 越 高 ， 啊 应 特性 就 越 具 体 。 
很 有 可 能 的 情况 是 ， 顶 层 的 单个 神经 元 只 会 对 一 个 人 的 照片 产生 啊 应 。 


这 被 称 为 “祖母 细胞 假说 ”(grandmother cell hypothesis) ， 祖 母 细 胞 是 
一 个 假想 的 脑 中 神经 元 ， 可 以 让 你 认 出 你 的 祖母 。 


更 为 戏剧 性 的 是 这 样 一 组 实验 ， 给 患者 展示 结合 了 两 个 熟 习 个 体 照 
片 的 融合 图 片 ， 并 要 求 他 们 想象 其 中 一 个 人 《 偶 好 个 体 ) 的 形象 ， 弱 化 
另 一 个 《竞争 个 体 ) ， 同 时 记录 仅 对 单一 熟人 照片 产生 啊 应 的 神经 元 的 
活动 。 尺 管 视觉 刺激 没有 改变 ， 但 受 试 者 能 够 增加 表征 “偏好 个 体 ” 神 经 
元 的 放电 速 紊 ， 同 时 降低 表征 “ 苋 争 个 体 ” 神 经 元 的 放电 速率 。 然 后 ， 实 
验 者 通过 控制 融合 图 片 中 两 种 照片 的 比例 (根据 神经 元 的 放电 比例 ) 来 
闭合 环 路 ， 受 试 者 便 可 以 通过 想象 两 个 个 体面 孔 的 比例 三 来 控制 输入 。 
该 实验 表明 ， 认 知 过 程 不 是 一 个 简单 的 被动 过 程 ， 而 是 依赖 于 记忆 和 内 
部 注意 力 控制 的 主动 参与 。 

尽管 有 了 这 样 令 人 恢 讶 的 证 据 ， 祖 母 细胞 假说 仍然 不 太 可 能 完全 解 
释 视觉 感知 的 过 程 。 根 据 该 假说 ， 当 细胞 处 于 活跃 状态 时 ， 你 会 感应 到 
你 的 祖母 ， 所 以 它 不 应 该 被 任何 其 他 的 刺激 产生 咽 应 。 测 试 中 只 有 几 百 
张 照 请 ， 所 以 我 们 的 确 不 知道 “ 哈 莉 : 贝 瑞 细 胞 ”有 多 么 强 的 选择 性 。 其 
次 ， 电 极 碰巧 记录 到 大 脑 中 唯一 的 哈 莉 ' 贝 瑞 神 经 元 的 可 能 性 很 低 ， 可 
能 性 更 大 的 情况 是 ， 大 脑 中 有 成 千 上 万 个 这 样 的 细胞 ， 肯 定 还 有 许多 对 
其 他 著名 面孔 、 你 认识 的 人 、 你 能 识别 的 每 一 个 对 象 做 出 啊 应 的 神经 元 
的 副本 。 尽 管 大 脑 中 有 数 十 亿 个 神经 元 ， 但 并 不 足以 给 人 们 认识 的 每 一 
个 对 象 和 名 称 分 配 一 个 大 型 的 专用 神经 元 群 组 。 最 后 ， 啊 应 只 是 与 感官 
刺激 相关 ， 但 并 不 一 定 表 明 其 中 存在 着 因果 关系 。 神 经 元 的 输出 ， 及 其 
对 下 游行 为 的 影响 《参考 第 5 草 介 绍 的 投射 场 ) 也 同样 重要 。 不 过 ， 响 
应 的 选择 性 是 惊人 的 。 记 录 开 始 之 前 ， 病 人 被 要 求 给 定 一 个 最 喜欢 的 名 
人 ， 所 以 可 能 哈 莉 : 贝 瑞 在 病人 的 脑 中 被 过 度 表 征 了 。 

在 小 鼠 、 猴 子 和 人 类 中 同时 记录 数 以 百 计 的 皮 层 神 经 元 ， 为 神经 元 
如 何 共同 感知 和 决策 提供 了 另 一 种 理论 。 三 在 猴子 的 记录 中 ， 刺 激 和 依 
赖 任务 的 信号 广泛 分 布 于 大 量 神经 元 中 ， 每 一 个 神经 元 都 会 为 刺激 和 任 
务 细节 特征 的 不 同 组 合 做 出 响应 。 三 不 久之 后 ， 我 们 将 有 可 能 记录 数 百 


万 个 神经 元 并 操纵 它们 的 放电 速度 ， 区 分 不 同类 型 的 神经 元 和 它们 彼此 
相连 的 方式 。 这 可 能 会 引出 超越 祖母 细胞 的 理论 ， 让 我 们 能 够 更 深入 地 
理解 神经 元 群体 的 活动 如 何 引 发 思考 、 情 绕 、 计 划 和 决策 。 当 然 ， 神 经 
元 表征 面孔 和 对 象 的 方式 可 能 不 止 一 种 。 随 着 新 的 记录 技术 的 出 现 ， 我 
们 应 该 很 快 就 会 知道 答案 。 三 

目 20 世 纪 80 年 代 以 来 ， 我 们 已 经 在 经 过 训练 的 含有 一 层 隐藏 单元 的 
神经 网 络 模型 中 了 解 到 ， 并 且 最 近 在 深度 网 络 中 也 认识 到 ， 神 经 网 络 中 
每 个 输入 的 活动 模式 呈 高 度 分 散 性 分 布 ， 其 方式 在 性 质 上 关 似 于 皮层 中 
神经 元 群 组 的 各 种 响应 〈 图 9-2) 。 三 分 布 表征 可 以 用 来 识别 相同 对 象 
的 多 个 版 本 ， 而 且 针 对 同一 组 神经 元 ， 也 可 以 通过 对 它们 的 输出 添加 不 
同 的 权重 来 识别 许多 不 同 的 对 象 。 对 神经 网 络 中 的 单个 隐藏 单元 进行 分 
析 ， 束 像 神经 生理 学 家 记录 视觉 皮层 中 的 神经 元 一 样 ， 有 时 会 发 现 一 个 
徘 近 顶层 的 模拟 神经 元 对 其 中 一 个 对 象 产 生 了 特定 的 偏好 。 但 是 ， 因 为 
剩 下 的 神经 元 携带 了 表征 对 象 的 元 余 信 号 ， 所 以 当 这 样 的 单元 被 切除 
时 ， 神 经 网 络 的 性 能 并 不 会 发 生 明 显 的 变化 。 神 经 网 络 在 受到 损害 的 情 
况 下 仍 能 保持 稳健 的 性 能 ， 是 网 络 与 大 脑 本 号 的 架构 与 数字 计算 机 的 染 
构 之 间 的 主要 区 别 。 


需要 多 少 皮 层 神 经 元 才能 区 分 例如 脸 部 之 类 的 许多 相似 对 象 呢 ”从 
成 像 研 究 中 ， 我 们 知道 人 脑 的 几 个 区 域 对 人 脸 能 够 做 出 反应 ， 有 些 区 域 
具有 高 度 的 选择 性 。 但 是 ， 在 这 些 区 域内 ， 任 何 单个 面孔 的 信息 都 广泛 
分 布 在 许多 神经 元 中 。 加 州 理 工学 院 的 曹 颖 CDoris Tsao) 在 猴子 的 大 
脑 皮 层 神经 元 中 ， 记 录 到 对 面部 的 选择 性 啊 应 ， 并 表明 可 以 通过 绪 合 ; 
目 200 个 面部 细胞 (所 有 面部 选择 性 神经 元 的 相对 较 小 的 子 集 〉 的 输入 
来 对 面部 特征 进行 重建 。 三 
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如 内 区。 视觉 皮层 中 神经 元 对 闪光 视觉 刺激 产生 啊 应 的 时 间 延 迟 从 25 坚 
秒 到 100 坚 秒 不 等 ， 这 些 延 迟 通常 发 生 在 皮层 同一 区 域内 。 尽 管 这 样 ， 
我 们 仍 可 以 确定 时 间 差 在 40 宣 秒 内 发 生 的 两 次 闪光 的 次 序 ， 以 及 时 间 关 
小 于 10 晤 秒 的 两 次 声音 的 次 序 。 让 问题 更 加 复杂 的 是 ， 视 网 膜 中 的 处 理 
也 需要 一 定 的 时 间 。 这 一 时 间 并 不 是 固定 的 ， 而 是 取决 于 闪光 的 强度 ， 
所 以 即便 微弱 内 光 和 强烈 内 光 同 时 发 生 ， 微 弱 办 光 中 来 自视 网 膜 的 首 个 
脉冲 的 到 达 时 间 与 强烈 闪光 相 比 ， 也 会 有 一 个 延 人 运 。 这 束 引 出 了 一 个 问 
题 ， 即 为 什么 视觉 感知 似乎 具有 一 致 性 ， 虽 然 从 整个 皮层 活动 的 时 间 和 
空间 分 布 模式 来 看 并 不 明显 。 

当 我 们 进行 跨 模 态 Ccross-modal) 比较 时 ， 同 时 性 问题 变 得 更 加 令 
人 困惑 。 你 看 到 一 个 人 在 砍 树 ， 假 设 你 离 得 足够 近 ， 即 使 声速 比 光速 慢 
得 多 ， 你 也 可 以 同时 看 到 并 听 到 每 次 痉 头 对 树木 的 砍 击 。 而 且 随 着 与 树 
的 距离 不 断 增 加 ， 同 时 性 的 约 觉 仍然 维持 着 ， 三 直到 视觉 和 上 听觉 信号 到 
达 你 的 大 脑 的 时 间 差 大 于 80 暑 秒 时 ， 我 们 束 不 再 认为 声音 与 砍 击 的 动作 
同时 发 生 《 此 时 的 距离 大 约 为 100 英 尺 ) 。 

探索 与 时 间 相 关 的 视觉 行为 的 研究 人 员 发 现 了 另 一 种 被 称 为 “闪光 
一 滞后 效应 ”(flash-lag effect) 的 现象 。 该 现象 可 以 表现 为 飞 过 头顶 的 
尺 机 闪烁 的 尾灯 和 机 尾 看 起 来 不 太一 致 一 一 闪光 的 位 置 似 乎 落后 于 机 
尾 。 另 一 种 常见 的 现象 是 在 足球 比赛 中 ， 当 一 名 跑 动 中 的 运动 员 看 起 来 
REEE ADG 前 面 时 ， 这 可 能 会 引起 助理 裁判 员 的 越位 判 六 这 
名 助理 裁判 员 并 未 做 出 幻觉 补偿 三 。 这 一 现象 可 以 在 实验 室 中 通过 用 视 
觉 刺激 〈 如 网 16-3 所 示 ) 来 进行 研究 。 在 闪光 滞后 效应 中 ， 闪 区 和 位 于 
同一 位 置 的 移动 物体 之 间 似 乎 发 生 了 错位 。 

对 这 种 现象 存在 一 种 主流 的 解释 一 一 在 直觉 上 更 说 得 通 ， 而 且 有 一 
些 来 自 大 脑 实 验 记 录 的 证 据 一 一 是 大 脑 预 测 了 运动 点 将 在 短 时 间 之 后 出 
现在 哪个 位 置 。 但 是 感知 实验 已 经 表明 ， 这 并 不 能 解释 闪光 湛 后 效应 ， 
因为 内 光 时 间 引 起 的 感知 取 雇 于 内 交 后 80 坚 秒 内 发 生 的 事件 ， 而 不 是 内 
光 之 前 发 生 的 事件 《先前 发 生 的 事 会 被 大 脑 用 来 做 出 预测 ) 。 三 这 种 对 


闪光 滞后 效应 的 解释 ， 意 味 着 大 脑 是 “后 发 性 的 ”而 非 * 预 测 性 的 >， 也 就 
是 说 ， 大 脑 不 断 修 改 历史 ， 使 有 意识 的 现在 与 未 来 保持 一 致 。 这 是 我 们 
的 大 脑 如 何 基 于 嘲 杂 和 不 完整 的 数据 产生 似是而非 感觉 的 一 个 例子 ， 这 
一 现象 也 经 过 魔术 师 的 探索 ， 被 用 于 魔术 表演 中 。 二 


图 16-3 闪光 滞后 效应 。《〈 上 图 ) 一 个 圆 环 从 左 向 右 移动 〈 黑 色 ) 。 当 它 通过 视野 的 
中 心 时 ， 灯 光 会 短暂 闪烁 《黄色 ) . (下 图 ) 被 试 者 报告 ， 在 闪光 时 圆 环 似乎 偏 移 
到 了 右 侧 。 图 片 来 源 : 大 卫 。 伊 格 尔 曼 。 
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大 脑 成 像 可 以 在 我 们 感知 事物 时 为 我 们 提供 大 脑 活动 的 全 局 图 。 根 
据 实 验证 据 ， 研 究 人 员 提 出 了 一 个 非常 有 吸引 力 的 假设 ， 即 当 皮 层 前 部 
《这 部 分 对 计划 和 制定 决策 非常 重要 ) 的 大 脑 活动 达到 阔 值 水 平 ， 并 开 
局 反馈 回路 时 ， 我 们 才 会 有 意识 地 注意 到 茶 些 事情 。 .三 虽然 具有 一 定 的 
局 发 性 ， 但 这 些 观察 结果 并 不 具有 说 服 力 ， 因 为 它们 并 不 构成 因果 关 


系 ， 而 只 是 表明 了 相关 性 。 如 果 “ 意 识 的 神经 相关 ”是 意识 状态 的 原因 ， 
那么 应 该 可 以 通过 改变 “意识 的 神经 相关 ?来 改变 意识 状态 。 曹 颖 在 她 
2017 年 的 实验 中 证 实 了 这 一 点 ; 通过 刺 油 猴子 的 视觉 皮层 中 的 脸 部 识别 
功能 区 ， 她 能 够 干扰 它们 对 脸 部 的 辨别 能 力 。 三 当 对 人 类 进行 类 似 的 实 
验 时 ， 被 试 者 报告 说 ， 脸 部 看 起 来 好 像 正 在 融化 。 三 

最 近 ， 诸 如 光 遗 传 学 二 等 新 拉 术 已 经 能 够 说 用 于 选择 性 地 操纵 神经 
元 的 活动 ， 从 而 对 NCC 的 因果 关系 进行 测试 。 如 宁 认 知 状态 与 高 度 分 散 
的 活动 模式 相对 应 ， 这 样 的 测试 难度 可 能 会 很 大 ， 但 原则 上 ， 这 种 方法 
可 以 揭示 意识 中 的 感知 和 其 他 特征 是 如 何 形 成 的 。 三 


视觉 搜索 的 机 理 


视 党 搜索 任务 依赖 于 目下 而 上 的 感官 处 理 ， 以 及 目 上 而 下 由 期 望 驱 
动 的 注意 力 处 理 〈 图 16-4A)〉 。 这 两 种 类 型 的 处 理 在 大 脑 中 相互 交织 着 
进行 ， 难 以 区 分 。 但 最 近 ， 和 人们 开发 了 一 种 新 刹 的 搜索 任务 来 尝试 将 它 
们 分 开 。 三 参与 者 坐 在 空白 的 屏幕 前 ， 他 们 的 任务 是 用 目光 扫 视 屏幕 ， 
找到 一 个 隐藏 目标 的 位 置 。 当 他 们 的 目光 停留 在 目标 附近 时 ， 会 听 到 奖 
励 音 。 隐 藏 目标 的 位 置 在 每 次 试验 中 都 会 发 生变 化 ， 并 且 服 从 高 斯 分 布 
一 种 钟 形 曲线 ， 由 其 峰值 和 宽度 定义 ) ， 但 在 一 个 试验 环 市 内 保持 不 
变 ， 然 而 参与 者 并 不 了 解 这 一 信息 〈 图 16-4D) 。 


在 试验 环节 开始 时 ， 参 与 者 并 没有 任何 先 验 知识 来 指导 他 们 的 搜 
索 。 一 旦 获得 奖励 ， 他 们 就 可 以 使 用 该 反馈 来 协助 下 一 次 试验 。 随 着 试 
验 的 进行 ， 参 与 者 通过 制定 隐藏 目标 分 布 的 预期 ， 来 指导 未 来 的 搜索 ， 
以 提高 成 功率 。 经 过 大 约 十 几 次 的 试验 后 ， 参 与 者 的 视觉 注意 力 缩小 到 
了 目标 出 现 概 率 高 的 区 域 。 图 16-4D 显 示 了 在 所 有 参与 者 身上 出 现 的 这 
种 效应 的 特征 。 随 着实 验 不 断 推 进 ， 搜 索 区 域 的 范围 开始 大 幅 缩小 。 令 
人 惊讶 的 是 ， 尽 管 被 试 者 在 几 次 试验 后 的 第 一 次 扫 视 总 是 能 到 达 隐 藏 目 


标 分 布 的 中 心 ， 但 他 们 中 许多 人 并 没有 办 法 描述 出 是 如 何 做 到 这 一 点 


C 
© Trial #54 


| Æ 
Trial #15 直 
位 
置 
S 
Trial #4 一 


M à 


图 16-4 学 习 朝 哪里 看 。 CA) 有 经 验 的 行人 事先 知道 在 街道 场景 中 寻找 路 标 、 汽 车 
和 人 行道 的 位 置 ; (B) 在 一 片 草地 上 丰 食 的 鸭子 ; (C) 屏幕 的 表征 图 像 与 试验 期 
间 学 习 的 隐藏 目标 分 布 区 域 进行 的 登 加 ， 以 及 来 自 参 与 者 © 的 三 次 试验 的 目光 轨迹 样 
本 。 每 个 试验 中 第 一 次 目光 停留 的 区 域 用 黑色 记号 标记 。 最 终 获 得 奖励 的 注视 位 置 
以 带 阴 影 的 灰色 点 进行 标记 。 (D) 对 目光 注视 过 的 屏幕 区 域 的 采样 ， 从 在 早期 试验 
中 遍布 了 整个 屏幕 〈 浅 灰色 圆圈 ; 前 五 个 试验 ) ， 缩 小 到 接近 高 斯 整数 分 布 大 小 和 
位 置 的 区 域 [ 正 方形 ， 颜 色 与 后 面试 验 C 中 给 出 的 概率 成 比例 CAL EL RB; 试验 32- 
39) ] 。 图 片 来 源 : L. Chukoskie, J. Snider, M. C. Mozer, R. J. Krauzlis, 


and T. J.Sejnowski, “Learning Where to Look for a Hidden Target” , W1. 

这 些 实验 表明 ， 大 脑 无 意识 的 控制 是 由 经 验 引 导 的 。 通 过 消除 视觉 
输入 ， 可 以 独立 地 研究 无 意识 过 程 。 这 项 搜索 任务 涉及 的 大 脑 区 域 包括 
视 沉 上层 和 上 后， 它们 分 别 控制 着 视野 中 对 象 的 立体 形 貌 分 布 ， 以 及 分 
别 将 视线 指向 视觉 目标 ， 与 眼 动 系统 的 其 他 部 分 紧密 合作 。 学 习 过 程 也 
涉及 基底 神经 节 ， 这 是 有 有 椎 动物 大 脑 的 一 个 重要 组 成 部 分 ， 能 通过 强化 
学 习 来 学 习 按 顺序 发 生 的 动作 。 三 预期 和 收 到 的 奖励 之 间 的 差异 ， 表 现 
为 中 脑 部 位 的 多 巴 胺 神经 元 放电 频率 的 瞬时 增加 ， 从 而 能 够 调 市 突 触 可 
塑性 ， 并 在 无 意识 层面 影响 决策 和 计划 的 制定 (已 在 第 10 章 中 讨论 
up a 


创造 意识 比 理 解 意识 更 容易 


在 去 世 之 前 ， 弗 朗 西 斯 : 克 里 克 还 邀请 我 到 他 家 中 讨论 屏 状 体 
(claustrum) ， 这 个 皮层 下 的 神秘 细胞 薄 层 接收 来 自 许 多 皮层 区 域 的 投 
5]. aR. SP WER SNORE, BARRET 
完成 他 的 最 后 一 篇 论文 ， 即 屏 状 体 因 其 中 心地 位 而 负责 意识 统一 的 假 
说 。 只 有 少数 研究 人 员 曾 研究 过 屏 状 体 ， 他 几乎 给 他 们 中 的 每 个 人 都 打 
过 电话 ， 寻 求 进一步 的 信息 。 这 次 拜访 是 我 最 后 一 次 见 到 他 。 弗 朗 西 斯 
于 2004 年 7 月 28 日 去 世 时 ， 仍 然 在 努力 撰写 他 最 后 一 篇 论文 三 的 手稿 ， 
试图 完成 他 对 意识 起 源 的 研究 。 


在 他 和 詹姆斯 - 沃 森 于 1953 年 发 现 DNA 结 构 的 50 年 后 ， 人 类 基因 组 
测序 的 项 目 完成 了 。 克 里 克 告 诉 我 ， 他 从 来 没有 想 过 人 类 能 够 完成 这 一 
壮举 。50 年 后 ， 我 们 距离 探 清 意识 问题 还 有 多 远 呢 ?届时 ， 我 们 将 拥有 
与 我 们 互动 的 机 器 ， 就 像 我 们 现在 通过 语音 、 手 势 和 面部 表情 与 他 人 互 
动 一 样 。 创 造 意识 要 比 完 全 理解 它 来 得 容易 。 

我 怀疑 ， 我 们 是 否 可 以 通过 首先 了 解 无 意识 的 处 理 过 程 一 一 我 们 看 
到 、 听 到 和 行动 时 认为 理所当然 的 一 切 一 一 来 加 快 进度 。 我 们 已 经 在 理 


解 激 励 系统 方面 取得 了 进展 (激励 系统 对 我 们 如 何 做 决定 产生 了 强烈 的 

dh ; 还 有 注意 力 系 统 〈 这 些 系 统 有 助 于 指导 我 们 在 现实 世界 中 搜寻 

BAL) 。 随 着 对 管理 感知 、 决 策 和 规划 的 大 脑 机 制 的 深入 了 解 ， 理 解 意 

识 这 这 个 问题 页 可 能 会 像 《 爱 丽 丝 漫游 奇 境 记 》 中 的 肉 郡 猫 一 样 消失 ， 只 留 
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17 
进化 的 力量 


研究 生命 起 源 的 莱 斯 利 : 奥 格 尔 (Leslie ”Orgel， 图 17-1， 右 ) 是 一 
位 毕业 于 牛津 大 学 的 化 学 家 ， 他 是 我 在 索 尔 克 研 究 所 多 年 的 同事 ， 也 是 
我 见 过 的 最 聪明 的 科学 家 之 一 。 每 周 五 的 教师 午餐 时 与 他 的 讨论 总 是 让 
我 意犹未尽 。 生 命 的 起 源 可 以 追溯 到 数 十 亿 年 前 ， 众 所 周知 ， 那 时 的 地 
球 与 今天 大 不 相同 ， 环 境 条 件 十 分 苛刻 ， 大 气 中 的 氧气 很 少 ， 并 不 适宜 
生命 存活 。 上 古 细菌 早 于 细菌 出 现在 地 球 上 ， 但 在 古 细 菌 之 前 出 现 的 又 是 
AWE? 我 们 现在 已 经 知道 ，DNA 普 遍 存在 于 所 有 细胞 中 ， 那 在 DNA 
形成 之 前 就 存在 的 遗传 物质 又 是 什么 呢 ? 1968 年 ， 莱 斯 利 : 奥 格 尔 和 弗 
朗 西 斯 : 克 里 克 推测 ， 由 细胞 中 的 DNA 簿 生 而 来 的 RNA 可 能 是 DNA 的 前 
身 ， 但 这 就 要 求 RNA 能 够 自我 复制 。 关 于 这 一 推测 的 证 据 ， 来 自 可 以 催 
化 RNA 反 应 的 基于 RNA 酶 的 核 酶 .三 (ribozyme) 。 今 天 该 领域 的 大 多 数 
研究 人 员 都 认为 ， 所 有 生命 都 来 自 早 期 的 “RNA 世 界 ”， 这 一 点 是 完全 有 
可 能 的 。 但 RNA 又 是 从 哪里 来 的 呢 ? 遗憾 的 是 ， 我 们 并 没有 什么 证 据 可 
以 继续 追溯 下 去 。 


图 17-1 1992 年 ， 索 尔 克 研究 所 的 弗朗西斯 。 克 里 克 〔 左 ) RMA RHR (E) 
分 别 在 意识 的 起 源 和 生命 的 起 源 领域 进行 着 开拓 性 的 研究 。 图 片 来 源 : 索 尔 克 研究 
所 。 


大 目 然 比 我 们 聪明 


一 直 以 来 ， 人们 普 过 接受 的 所 谓 “ 真 理 "， 总 是 不 断 地 被 惊人 的 发 现 
所 站 履 。 我 们 抬 起 头 ， 看 到 太阳 在 围绕 地 球 转 动 ， 但 实际 上 是 地 球 在 经 
看 太阳 转 。 进 化 论 让 我 们 认 清 了 人 类 的 及 展 历程 ， 尽 管 到 了 今天 ， 很 多 
人 仍然 难以 接受 这 一 理论 。 许 多 年 后 ， 我 们 的 后 代 将 回顾 我 们 生活 的 这 
个 时 代 ， 并 认为 我 们 对 智能 的 直觉 ， 是 过 于 简化 了 的 ， 这 种 直觉 阻碍 了 
人 工 智 能 后 续 50 年 的 进步 。 正 如 奥 格 尔 的 第 二 定律 所 述 ， 进 化 比 你 聪 
明 。 


我 们 的 意识 沉 知 只 是 冰山 一 角 ， 我 们 大 脑 的 大 部 分 活动 依然 神秘 英 
测 ， 无 法 进行 自我 反思 。 我 们 用 “注意 力 ? 和 “意图 "这些 词 来 描述 我 们 的 


行为 ， 但 这 些 都 是 含糊 的 概念 ， 隐 藏 了 大 脑 活动 过 程 的 内 在 复杂 性 。 基 
于 直觉 大 众 心理 学 的 人 工 智能 的 发 展 迟 迟 得 不 到 令 人 满意 的 成 果 。 我 们 
的 眼睛 能 看 到 东西 ， 但 没 人 知道 其 背后 的 原因 。 “我 思 故 我 在 ”， 但 思考 
背后 的 机 制 仍 是 一 个 谈 。 大 上 自然 问 我 们 揭示 大 脑 如 何 运 转 ， 并 不 会 给 我 
们 带 来 生存 上 的 优势 。 奥 格 尔 的 第 二 定律 仍然 成 立 。 二 

正如 第 2 章 所 指出 的 那样 ， 我 们 拥有 高 度 发 达 的 视觉 系统 ， 但 这 并 
不 能 让 我 们 成 为 视觉 领域 的 专家 。 三 许多 人 甚至 都 没有 意识 到 ， 我 们 的 
眼 部 存在 一 个 眼中 央 止 ， 其 能 提供 的 清晰 视角 只 有 1 上 度 的 踊 度 ， 相 当 于 
以 一 臂 为 半径 ， 拇 指 长 度 为 弧 长 所 对 应 的 角度 ， 另 外 ， 我 们 在 眼中 央 凹 
之 外 什么 都 看 不 到 ， 几 乎 相当 于 法 定 盲人 三。 我 兽 经 回 我 的 母亲 指出 这 
一 点 ， 她 说 她 不 相信 我 ， 因 为 她 前 后 左右 都 看 得 很 清楚 。 由 于 我 们 可 以 
迅速 重新 定位 视觉 目标 ， 所 以 产生 了 一 种 在 目光 所 及 之 处 都 能 看 得 很 清 
楚 的 错觉 。 你 知道 当 你 凝视 一 个 目标 时 ， 目 光 会 以 每 秒 三 次 的 频率 在 目 
标 上 游 移 吗 ? 余 光 (peripheral vision) 可 能 具有 较 低 的 空间 分 辨 率 ， 但 
对 亮度 和 运动 的 变化 非常 敏感 。 在 视觉 皮层 中 ， 与 识别 目标 的 主要 回路 
相 区 别 的 男 一 个 主要 回路 ， 就 负 员 识别 视线 在 空间 中 的 移动 。 

当 计 算 机 视觉 领域 的 先驱 开始 设计 视 党 功能 时 ， 他 们 的 目标 是 从 图 
像 中 创建 出 一 个 完整 的 世界 内 部 模型 ， 而 这 个 目标 已 经 被 证 明 是 难以 实 
现 的 。 但 是 ， 一 个 完整 而 准确 的 模型 对 于 大 多 数 实际 目的 来 说 可 能 是 不 
必要 的 ， 而 且 考 虑 到 目前 的 摄像 机 取样 率 很 低 ， 这 似乎 更 不 可 能 实现 。 

根据 心理 物理 学 、 生 理学 和 解剖 学 的 证 据 ， 由 特 里 夏 . 丘 奇 兰 德 、 
神经 心理 学 家 拉 马 钱 德 兰 (V. S. Ramachandran) 和 我 得 出 的 结论 是 ， 
大 脑 只 表征 世界 上 有 限 的 一 部 分 目标 ， 即 执行 手头 任务 所 需要 的 那 部 
分 。 三 这 也 使 得 强化 学 习 更 容易 减少 所 需要 的 、 可 能 有 助 于 获得 奖励 的 
感官 输入 的 数量 。 视 党 的 明显 模块 化 《〈 与 其 他 感官 处 理 流 相 比 ， 视 觉 信 
息 有 更 高 的 分 离 度 ) 也 是 一 种 错觉 。 视 觉 系统 集成 了 来 自 其 他 渠道 的 信 
轧 ， 包 括 来 自 奖 励 系统 的 指示 场景 中 目标 价值 的 信号 。 机 动 系统 通过 积 
极地 重新 定位 传感器 来 寻找 信息 ， 例 如 移动 目光 ， 以 及 在 某 些 物种 中 ， 


通过 移动 耳 条 来 收集 可 能 导致 奖励 行为 的 信息 。 

大 脑 通过 对 环境 的 逐步 适应 而 发 生 进 化 ， 大 自然 无 法 从 零 开 始 ， 而 
必须 通过 修改 各 个 零 部 件 来 维持 现 有 物种 的 生存 。 约 验 : 奥 尔 曼 (John 
Allman) 在 他 的 著作 《进化 脑 》 (Evolving Brains) 三 一 书 中 冰 述 了 在 
城市 人 类 尺度 上 逐渐 发 生 的 进化 ， 并 回顾 了 一 次 他 去 圣迭戈 老 电 三 锅炉 
房 的 经 历 。 他 注意 到 ， 在 一 组 真空 管 劳 边 有 一 排 排 复杂 的 小 型 气 送 管 ， 
旁边 是 不 同年 代 的 计算 机 控制 系统 。 由 于 该 电厂 需要 连续 供电 ， 因 此 无 
法 在 每 次 对 技术 进行 更 新 换代 时 ， 都 直接 关闭 旧 系 统 并 将 其 改装 为 新 系 
统 。 于 是 旧 的 控制 系统 就 被 留 在 了 原 位 ， 而 新 的 控制 系统 被 集成 到 了 其 
中 。 同 样 ， 随 着 大 脑 的 不 断 变 化 ， 大 上 自然 并 不 能 抛弃 旧 的 大 脑 系 统 ， 而 
是 根据 当前 的 发 展 计 划 进 行 调整 ， 偶 尔 也 会 增加 一 层 新 的 控制 。 基 因 复 
制 ， 是 引入 能 够 变异 出 新 功能 的 基因 副本 的 最 佳 途径 。 全 基因 组 复制 的 
情况 曾经 也 发 生 过 ， 而 这 可 能 会 导致 一 个 全 新 物种 的 诞生 。 


认 知 科学 的 兴起 


20 世 纪 30 年 代 ， 研 究 学 习 行 为 的 心理 学 家 把 行为 看 作 将 感官 输入 转 
化 为 运动 输出 的 过 程 ， 并 自称 为 “行为 主义 者 ”。 关 联 学 习 是 行为 主义 的 
研究 重点 ， 许 多 学 习 规 律 在 通过 用 不 同 的 奖励 机 制 训练 动物 时 被 陆续 发 
现 。 哈 佛 大 学 的 BF， 斯 金 纳 是 这 一 领域 的 领导 者 ， 他 撰写 了 几 本 畅销 
书籍 来 解释 他 的 发 现 对 社会 造成 的 影响 。 三 当时 有 关 行 为 主义 的 大 众 出 
版 物 非 常 受 欢 迎 。 

1971 年 ， 闭 名 语言 学 家 诺 姆 : 齐 姆 斯 基 (图 17-2) 在 《纽约 书评 》 
(图 17-3) 上 发 表 了 一 篇 全 面 择 击 行为 主义 的 文章， 矛头 直 指 斯 金 纳 。 
三 下 面 是 他 的 论点 中 关于 语言 方面 的 一 段 摘录 : 


图 17-2 1977 年 的 诺 姆 。 乔 姆 斯 基 。 他 于 1971 年 在 《纽约 书评 》 上 撰写 了 文章 《针对 
斯 金 纳 的 驳斥 》。 乔 姆 斯 基 的 论文 对 一 代 认 知心 理学 家 产生 了 深远 的 影响 。 他 们 开 

始 将 符号 处 理 作 为 认 知 的 概念 框架 ， 而 大 脑 发 育 和 学 习 在 认 知 和 每 力 中 的 重要 作用 

则 在 他 们 的 眼中 大 打折 扣 。 图 片 来 源 : Hans Peters/Anefoto。 
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图 17-3 诺 姆 。 乔 姆 斯 基于 1971 年 在 《纽约 书评 》 中 择 击 斯 金 纳 的 标题 。 乔 姆 斯 基 的 
文章 影响 了 一 代 科 学 家 ， 诱 导 他 们 放弃 了 对 行为 的 学 习 ， 并 采用 符号 处 理 作 为 解释 
认 知 的 方式 。 但 使 用 符号 方法 ， 人 工 智能 从 未 出 现 能 够 达到 认 知 水 平 的 表现 。 斯 金 
纳 在 强化 学 习 领 域 引 领 着 正确 的 方向 ， 但 却 受 到 了 乔 姆 斯 基 的 嘲讽 ; 当今 最 引 人 注 
目的 Al 应 用 是 基于 学 习 ， 而 非 远 辑 。 图 片 来 源 : 《纽约 书评 》。 


把 一 些 我 从 来 没有 听 过 或 说 过 的 英语 句子 ， 而 不 是 中 文句 子 说 


成 属于 我 的 “语录 ” (只 因为 我 说 前 者 的 “概率 ”更 大 ) ， 这 是 什 
么 意思 ? 斯 金 纳 主义 在 讨论 中 涉及 这 一 点 时 ， 一 直 诉 诸 “ 相 似 
性 ”或 “ 泛 化 ”， 但 始终 没有 精确 地 描述 新 句子 与 熟悉 的 例子 如 
何 “ 相 似 ”， 或 从 例子 中 如 何 “ 泛 化 ”的 方式 。 这 种 失败 的 原因 很 
简单 。 就 目前 所 了 解 的 信息 而 言 ， 相 关 属 性 只 能 用 描述 有 机 体内 部 
假定 状态 的 抽象 理论 〈 例 如 语法 ) 来 表达 ， 而 这 种 理论 被 从 斯 金 纳 
的 “科学 理论 ”中 先 验 地 排除 了 。 由 此 导致 的 直接 后 果 就 是 ， 只 要 
讨论 涉及 事实 世界 ， 斯 金 纳 主义 就 必然 会 陷入 神秘 主义 (不 能 解释 
的 “相似 性 ”和 无 法 描述 的 “ 泛 化 ”) 。 尽 管 在 语言 中 情况 可 能 
为 清楚 ， 但 没有 理由 认为 ， 人 类 行为 的 其 他 方面 也 会 落 入 斯 金 纳 用 
先 验 限 制 了 的 “科学 ”体系 之 中 。 寺 / 


以 今天 的 角度 ， 我 们 可 以 看 到 和 弄 姆 斯 基 明 日 了 问题 的 关键 ， 但 他 并 
不 了 解 学 习 的 力量 。 深 度 学 习 已 经 问 我 们 展示 了 ， 像 大 脑 本 吴 的 神经 网 
络 那样 ， 模 型 神经 网 络 能 够 做 到 被 乔 姆 斯 基 解 释 为 “神秘 主义 ”的 那 
种 “ 泛 化 ”>， 并 且 可 以 经 过 训练 ， 选 择 性 地 识别 多 国语 言 并 进行 翻译 ， 为 
图 像 生成 在 语法 上 无 可 挑剔 的 标题 。 最 具 讽 刺 意 味 的 是 ， 机 器 学 习 已 经 
解决 了 自动 解析 语句 的 问题 ， 尽 管 计 算 语言 学 家 做 出 了 艰 苗 的 努力 ， 但 
乔 姆 斯 基 的 句法 “抽象 理论 ”从 来 没有 解答 过 这 个 问题 。 当 与 斯 金 纳 开创 
的 强化 学 习 结 合 起 来 时 ， 机 器 学 习 就 可 以 解决 需要 做 出 一 系列 选择 以 实 
现 目标 的 复杂 问题 。 这 是 解决 问题 的 实质 ， 也 是 智能 的 基础 。 


乔 姆 斯 基 的 文章 充满 了 赤 视 ， 其 影响 也 远 远 超过 了 对 斯 金 纳 的 择 
ib: 它 挑战 了 ， 甚 至 驳斥 了 将 学 习作 为 理解 认 知 的 一 种 方式 。 这 在 20 世 
纪 70 年 代 对 认 知 心理 学 产生 了 决定 性 的 影响 。 乔 姆 斯 基 所 持 观 点 的 核心 
在 于 ， 根 本 无 法 想象 〈 至 少 对 乔 姆 斯 基 而 言 ) 关联 式 学 习 能 够 产生 一 种 
像 语 言 那 样 复杂 的 认 知 行为 。 但 请 注意 ， 这 个 论点 是 基于 无 知 一 仅 因 
为 世界 顶尖 的 语言 学 家 说 他 无 法 想象 某 件 事 ， 并 不 能 否定 这 件 事 发 生 。 
但 乔 姆 斯 基 的 言辞 与 70 年 代 的 时 代 精 神 产生 了 共鸣 ， 因 此 颇 受 追捧 。 到 
了 20 世 纪 80 年 代 ， 对 认 知 进行 符号 处 理 已 成 为 主流 方法 ， 并 为 一 个 名 


为 “ 认 知 科学 "的 新 领域 打下 了 基础 一 认 知 科学 是 认 知 心理 学 、 语 言 
学 、 百 学 和 计算 机 科学 的 混合 体 。 神 经 科学 则 像 是 认 知 科学 的 小 兄弟 ， 
在 20 世 纪 90 年 代 认 知 神经 科学 兴起 前 ， 一 直 或 多 或 少 地 受到 忽视 。 


不 能 把 语言 问题 只 留 给 语言 学 家 


此 后 ， 乔 姆 斯 基 还 多 次 使 用 了 同样 的 修辞 论证 ， 其 中 最 著名 的 是 他 
基于 “刺激 匮乏 ”(poverty of the stimulus) 对 先天 语言 能 力 的 论证 ， 三 
其 中 断言 婴儿 在 听觉 上 获取 不 到 足够 的 语言 范例 来 学 习 句 法 的 规则 。 但 
是 ， 屡 儿 并 不 是 一 台 从 外 界 得 到 一 串 无 形 符号 的 计算 机 。 事 实 上 ， 一 个 
楼 儿 沉 浸 在 一 个 充满 让 证 感官 体验 的 世界 中 ， 并 会 以 惊人 的 速度 了 解 世 
界 的 本 质 。 三 这 个 世界 充满 了 与 声音 有 关 、 意 义 非 凡 的 体验 ， 这 些 体验 
始 于 子宫 ， 是 一 种 无 监督 学 习 。 在 这 一 基础 上 ， 语 言 开 始 形成 ， 首 先是 
别 除 呀 蚜 ， 然 后 是 单个 词汇 ， 以 及 后 来 语法 正确 的 单词 序列 。 先 天 习 得 
的 并 不 是 语法 ， 而 是 能 够 从 经 验 中 学 习 语 言 ， 表 现 出 在 丰富 的 认 知 语 境 
中 吸收 话语 的 高 阶 统计 特性 的 能 

令 乔 姆 斯 基 无 法 想象 的 是 ， 如 果 加 上 对 环境 的 深度 学 习 和 用 毕生 的 
经 验 磨炼 出 的 深度 学 习 的 代价 函数 ， 像 强化 学 习 这 样 的 弱 学 习 系 统 也 可 
以 产生 认 知 行为 ， 包 括 语言 。 在 20 世 纪 80 年 代 ， 这 一 点 对 我 来 说 并 不 明 
显 ， 尽 管 我 应 该 认识 到 ， 如 果 像 话语 网 络 这 样 的 小 型 网 络 可 以 处 理 身 语 
发 首 ， 那 么 很 可 能 在 对 言语 的 表征 中 ， 学 习 网 络 一 一 无 论 是 模型 网 络 还 
是 皮层 网 络 一 一 都 对 语言 有 着 天 然 的 杀 和 力 。 齐 姆 斯 基 的 立场 是 基于 想 
象 力 的 匮乏 ， 但 从 逻辑 来 说 符合 了 奥 格 尔 的 第 二 定律 : 进化 比 你 聪明 ， 
而 这 个 “你 ”也 包括 像 乔 姆 斯 基 这 样 的 专家 。 事 实 上 ， 当 一 位 专家 告诉 你 
上 自然界 的 某 些 事情 是 不 可 能 的 时 候 ， 你 应 该 保持 齐 慎 一 一 不管 这 个 论证 
有 多 么 合理 或 者 令 人 信服 。 

在 20 世 纪 后 半 叶 ， 乔 姆 斯 基 对 语序 和 人 句法 的 强调 成 为 语言 学 的 主导 
方式 。 但 即使 是 一 个 “ 词 袋 ”(bag of words) 模型 的 神经 网 络 ， 抛 弃 单 词 


顺序 ， 也 能 在 判定 文章 《如 体育 报道 或 政论 ) 的 主题 方面 表现 出 色 ， 并 
且 通 过 参考 直接 相 邻 的 文字 关系 ， 性 能 还 可 以 得 到 进一步 的 提升 。 我 们 
通过 深度 学 习 获 得 的 经 验 是 ， 即 使 词 序 包 合 一 些 信 息 ， 但 基于 单词 含义 
及 词 间 关系 的 语义 更 重要 。 词 汇 在 大 脑 中 被 丰富 的 内 部 结构 所 表征 。 随 
独 我 们 对 在 深度 学 习 网 络 中 词汇 如 何 表 达 语 义 有 了 更 深入 的 了 解 ， 我 们 
可 能 会 开局 一 门 新 的 语言 学 。 束 像 大 卓然 没有 理由 问 我 们 揭示 视觉 的 工 
作 原 理 一 样 ， 也 没有 理由 认为 ， 我 们 对 语言 工作 原理 的 直觉 会 更 好 。 

我 们 来 考虑 一 下 ， 在 对 目 然 语言 任务 进行 训练 的 模型 网 络 中 ， 单 词 
的 内 部 结构 可 能 是 什么 样子 。 虽 然 网 络 可 能 是 针对 特定 问题 进行 训练 ， 
但 网 络 表征 输入 的 方式 可 被 用 于 解决 其 他 问题 。 一 个 很 好 的 例子 就 是 训 
练 一 个 网 络 ， 来 预测 句子 中 的 下 一 个 单词 。 在 经 过 训练 的 网 络 中 ， 单 词 
的 表征 方式 具有 内 部 结构 《以 网 络 中 所 有 单元 的 活动 模式 的 形式 ) ， 可 
以 用 来 在 单词 对 之 间 进 行 类 比 。 三 例如 ， 当 这 些 活动 模式 被 投影 到 一 个 
平面 时 ， 连 接 国家 和 首都 的 天 量 都 是 一 样 的。 在 没有 任何 关于 首都 城市 
意味 着 什么 的 监督 信息 的 前 提 下 (图 17-4) ， 网 络 学 会 了 自动 组 织 概念 
并 隐 式 地 学 习 它 们 之 间 的 关系 ， 这 就 表明 ， 可 以 使 用 无 监督 学 习 从 文本 
中 提取 国家 和 首都 的 语义 。 
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图 17-4 网 络 中 单词 的 内 部 表征 被 用 来 训练 预测 句子 中 的 下 一 个 单词 。 每 个 单词 都 是 
网 络 活动 的 矢量 ， 可 以 如 上 所 示 投 影 到 二 维 平面 上 上。 箭头 将 国家 连接 到 它们 的 首 
都 。 由 于 所 有 这 些 箭头 彼此 平行 并 且 长 度 大 致 相同 ， 所 以 单词 对 也 以 类 似 的 方式 表 
示 。 例 如 ， 如 果 你 想 查 找 不 同 国家 的 首都 ， 可 以 将 此 箭头 添加 到 该 国家 的 矢量 中 ， 
并 检索 出 其 首都 的 矢量 。 资 料 来 源 : T. Mikolov, |. Sutskever, K. Chen, G. 
Corrado and J. Dean, “Distributed Representations of Words and Phrases 
and Their Compositionality" , 42. HARM: KA WA. 
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了 ， 不 能 只 留 给 语言 学 家 去 研究 。” 三 我 的 意思 是 ， 我 们 不 应 该 只 停留 
在 行为 层面 描述 语言 。 我 们 应 该 理解 语言 背后 的 生物 学 原理 和 潜在 的 生 
物 学 机 制 ， 以 及 知人 的 语言 能 力 是 如 何 演变 的 。 使 用 无 创 大 脑 成 像 ， 以 
及 直接 对 闻 病 患者 的 大 脑 活动 进行 记录 ， 已 经 使 这 一 想法 成 为 可 能 。 对 
大 脑 研 究 来 说 ， 同 等 重要 的 是 通过 比较 人 类 大 脑 与 黑猩猩 和 其 他 高 等 灵 
长 类 大 脑 的 差异 ， 来 理解 语言 是 如 何 形成 的 ， 相 比 在 早期 经 过 更 加 漫长 
的 过 程 获得 感觉 运动 技能 ， 使 用 语言 的 能 力 发 生 在 进化 的 茶 个 瞬间 。 强 
大 的 基因 工具 将 使 我 们 能 够 训 析 大 脑 的 发 育 ， 并 理解 进化 如 何 通过 在 发 


育 中 不 断 修正 来 形成 我 们 先天 的 语言 学 习 能 

语言 可 以 通过 诉 诸 似是而非 和 源 目 无 知 的 争论 被 用 来 进行 误导 和 控 
制 ， 这 种 无 知 会 产生 远 远 超出 科学 范畴 的 负面 影响 。 历 史上 充斥 着 烛 动 
者 ， 当 他 们 在 想象 力 方 面 的 匮乏 被 骏 露 出 来 ， 最 终 就 会 难 逃 被 抛 痉 的 命 
运 。 症 运 的 是 ， 大 脑 存在 的 时 间 比 语言 要 长 很 多 ， 如 果 我 们 依赖 于 早 在 
语言 出 现 之 前 就 进化 出 来 的 那 部 分 大 脑 ， 上 痛 定 会 从 中 受益 。 — 


难 预 测 的 行为 规律 


回想 起 来 ， 行 为 主义 和 认 知 科学 在 20 世 纪 对 行为 的 研究 采取 了 相反 
的 方式 ， 但 都 犯 了 同样 的 错误 ， 即 忽视 了 大 脑 的 重要 性 。 行 为 主义 者 不 
希望 和 被 反思 误导 ， 所 以 他 们 认为 不 去 大 脑 中 寻求 指导 ， 实 际 上 是 一 种 荣 
次。 他 们 认为 ， 通 过 仔细 控制 黑 苗 子 的 输入 和 输出 ， 可 以 友 现 任何 侦 然 
事件 的 行为 规律 。“ 功 能 主义 ”的 认 知 科学 家 拒 不 认可 行为 主义 ， 并 且 相 
信 他 们 可 以 友 现 思维 的 内 在 表征 方式 ， 但 是 因为 他 们 也 相信 大 脑 如 何 实 
现 这 些 表 征 的 细节 无 关 紧 要 ， 三 因此 他 们 所 开发 的 内 部 表征 是 基于 不 可 
靠 的 直 党 和 大 众 心 理学 。 大 目 然 比 这 两 派 都 要 聪明 。 


黑匣子 的 内 部 状态 非常 复杂 ， 因 此 要 发 现 内 部 表征 和 行为 规律 非常 
困难 。 如 果 有 一 天 我 们 确实 发 现 了 行为 规律 ， 很 可 能 会 对 它们 进行 功能 
性 的 描述 ， 尽 管 这 个 描述 可 能 和 量子 力学 对 于 物理 学 家 一 样 ， 是 违反 直 
党 的 。 想 要 发 现行 为 规律 ， 我 们 需要 尽 可 能 依赖 大 脑 。 深 度 学 习 网 络 是 
通过 关注 大 脑 结构 的 茶 些 一 般 特 征 ， 以 及 大 脑 功能 的 一 般 原 理 来 取得 进 
步 的 范例 。 我 坚 不 怀 疑 强 硬 的 功能 主义 者 会 提出 抗议 ， 但 我 们 需要 前 
进 ， 而 不 是 墨守成规 。 在 此 过 程 的 每 一 步 中 ， 添 加 来 自 大 脑 染 构 的 一 系 
列 新 特征 都 提升 了 深度 学 习 网 络 的 功能 : 上 层 区 域 的 层次 结构 ， 深 度 学 
习 与 强化 学 习 在 大 脑 中 的 耦合 ， 循 环 挛 层 网 络 中 的 工作 记忆 ， 以 及 关于 
事实 和 事件 的 长 期 记忆 ， 等 等 。 我 们 还 可 以 从 更 多 的 大 脑 计 算 原 理 中 学 
J, 六 充分 利用 它们 。 总 


研究 知觉 、 记 忆 和 决策 的 神经 科学 家 通常 在 他 们 的 实验 中 使 用 基于 
试验 的 任务 ， 在 这 些 任务 中 ， 实 验 动物 接受 训练 以 对 刺激 产生 期 望 的 反 
应 。 经 过 数 月 的 训练 后 ， 这 些 刺激 驱动 的 反应 变 成 了 反射 ， 而 不 是 反 

思 ， 这 可 以 揭示 习惯 行为 ， 而 不 是 认 知行 为 背后 的 机 制 。 思 考 不 是 一 种 
反射 ， 它 可 以 在 没有 任何 感官 刺激 的 情况 下 发 生 ， 但 传统 的 实验 设计 方 
式 忽 咯 了 在 没有 感官 输入 的 情况 下 进行 的 自发 活动 。 我 们 需要 新 的 方法 
来 研究 与 感官 和 运动 无 关 的 内 部 活动 ， 其 中 包括 有 意识 思考 和 无 意识 处 
理 。 出 现 了 这 样 一 种 新 的 情况 ， 大 脑 成 像 实验 揭示 了 当 人 被 放 入 扫描 仪 
并 被 要 求 “休息 "时 ， 所 自发 产生 的 更 息 状 态 。 当 无 所 事 事 时 ， 意 识 则 表 
现 为 一 种 称 忽 不 定 的 模式 ， 这 是 一 种 我 们 可 以 观察 到 但 尚未 理解 的 大 及 
活动 。 

脑 成 像 ， 尤 其 是 无 创 性 功能 磁 共 振 成 像 CIMRD 开辟 了 研究 社会 
互动 和 决策 制定 的 新 途径 ， 形 成 了 一 个 名 为“ 神经 经 济 学 "的 新 领域 。 = 
因为 人 类 并 不 是 经 典 经 济 学 中 经 常 假设 的 理性 行为 者 ， 我 们 的 判断 和 动 
机 来 自 复杂 的 大 脑 内 部 状态 ， 因 此 我 们 需要 根据 实际 而 非 理想 化 的 人 类 
判断 和 动机 ， 来 建立 一 个 行为 经 济 学 。 = 正如 第 10 章 所 述 ， 多 巴 胺 神经 
元 通过 表现 奖励 预测 误差 ， 对 动机 产生 了 强大 的 影响 。 针 对 社交 互动 的 
大 脑 成 像 ， 能 够 以 纯粹 的 行为 实验 无 法 实现 的 方式 探究 人 类 的 动机 。 我 
们 的 目标 是 用 基于 先前 经 验 的 概率 决策 理论 ， 来 取代 基于 逻辑 的 理性 决 
策 理论 ， 


神经 网 络 的 寒冬 


神经 网 络 的 早期 历史 ， 其 实 就 是 一 个 不 大 但 左 具 影响 力 的 团队 ， 如 
何 能 够 将 研究 方向 带 离 正轨 的 案例 。 在 《感知 器 》 这 本 书 尾声 部 分 ， 马 
文明 斯 基 和 西 摩尔 帕 普 特 〈 图 17-5) 表达 了 这 样 的 观点 : 感知 器 学 习 
算法 并 不 能 扩展 到 多 层 感知 器 : 


图 17-5 照片 拍摄 于 1971 年 马 文 。 明 斯 基 和 西 摩尔 。 帕 普 特 出 版 了 《感知 器 》 一 书后 
不 久 。 其 中 对 简单 网 络 出 色 的 数学 分 析 ， 让 一 代 追 求 基 于 多 层 网 络 学 习 的 人 工 智 能 
方法 的 研究 人 员 ， 感 到 不 寒 而 于。 图 片 来 源 : 麻 省 理工 学 院 。 

这 个 扩展 问题 不 仅仅 是 技术 问题 ， 也 是 战略 问题 。 尽 管 (甚至 
是 因为 ) 它 有 着 严重 的 局 限 性 ， 感 知 器 已 经 显示 出 了 研究 价值 。 它 
具有 很 多 引 人 注 目的 特点 : 线性 ， 有 趣 的 学 习 理论 ， 清 晰 简单 的 范 
例 适 用 于 并 行 计算 。 但 没有 理由 认为 ， 这 些 特点 中 的 任何 一 种 会 延 
续 到 多 层次 版 本 。 尽 管 如 此 ， 我 们 仍然 认为 这 是 一 个 重要 的 研究 课 
A, ARARA (ATR) 我 们 对 “其 扩展 是 无 所 作为 的 ”的 直觉 判 
断 。 我 们 也 许 会 发 现 一 些 强大 的 收敛 定理 ， 或 者 相反 地 ， 我 们 会 找 
到 无 法 为 多 层 机 器 研发 有 趣 的 “学 习 理 论 ” 的 原因 。 三 


毫 无 疑问 ， 其 结果 导致 了 网 络 学 习 领 域 的 寸 草 不 生 。 在 明 斯 基 和 由 
普 特 的 书 中 ， 这 种 上 毫 无 根据 的 “直觉 *”( 除 此 之 外 ， 这 倒是 一 本 好 书 ) 对 
神经 网 络 学 习 的 发 展 产 生 了 令 人 不 寒 而 标的 影响 ， 让 一 代 人 的 研究 就 此 
停滞 不 前 。 尽 管 我 个 人 从 这 种 停 沾 中 受益 ， 因 为 它 使 我 的 事业 成 为 可 
能 。 但 是 我 有 机 会 在 明 斯 基 职 业 生 涯 后 期 ， 站 在 幕后 洞察 一 切 。 

我 被 邀请 参加 2006 年 达 特 茅 斯 人 工 智能 会 议 “*AI@50”， 回 顾 1956 年 
在 达 特 茅 斯 举行 的 开创 性 的 人 工 智 能 夏季 研究 项 目 ， 并 讨论 人 工 智 能 的 


未 来 。 三 1956 年 该 项 目的 十 位 先驱 中 的 五 位 出 席 了 这 次 会 议 : WE 
F (John McCarthy， 斯 坦 福 大 学 ) , HALARE ORTA ILE 
院 ) ， 特 伦 查 德 :摩尔 (Trenchard More, IBM) ， 雷 :所 罗 门 诡 夫 (Ray 
Solomonoff， 伦 敦 大 学 ) 和 奥利弗 . 赛 弗 里 奇 (Oliver Selfridge, RA EE 
工学 院 ) 。 无 论 从 科学 还 是 社交 的 角度 来 说， 这 都 是 一 次 引人入胜 的 会 
议 。 

卡 内 基 - 梅 隆 大 学 的 金 出 武 雄 〈Takeo Kanade) 在 他 的 演讲 “人 工 智 
能 视野 : 进步 与 非 进步 ”(Artificial Intelligence Vision: Progress and Non- 
Progress) 中 指出 ， 以 今天 的 标准 来 看 ，20 世 纪 60 年 代 的 计算 机 内 存 很 
小 ， 并 且 一 次 只 能 保存 一 张 图 像 。 金 出 武 雄 在 他 1974 年 的 博士 论文 中 指 
出 ， 尺 绾 他 的 程序 可 以 在 一 个 图 像 中 找到 一 辆 坦克 ,但 是 在 其 他 图 像 
中 ， 如 果 坦 元 处 于 不 同 的 位 置 并 且 光 照 不 同 ， 则 很 难得 到 同样 的 结果 。 
但 是 ， 当 他 早期 的 学 生 毕 业 时 ， 因 为 电脑 更 强大 ， 他 们 设计 的 程序 可 以 
在 更 普遍 的 条 件 下 识别 坦克 。 今 天 ， 他 学 生 的 程序 可 以 识别 任何 图 像 中 
的 坦 元 。 不 同 之 处 在 于 ,今天 我 们 可 以 访问 数 以 百 万 计 的 图 像 ， 可 以 对 
各 种 姿态 和 光照 条 件 进 行 取样 ， 而 且 计算 机 的 功能 更 是 强大 了 数 百 万 
倍 。 

抹 省 理工 学 院 的 罗 德 尼 . 布 重 克 斯 在 他 的 题 为 “智能 与 号 
体 ”(Intelligence and Bodies) 的 演讲 中 ， 讲 述 了 他 在 建造 候 行 和 漫步 机 
器 人 方面 的 经 验 。 智 能 在 大 脑 中 进化 以 控制 运动 ， 并 且 映 体 逐 渐 发 展 为 
通过 智能 与 世界 互动 。 布 鲁 殉 斯 放弃 了 机 器 人 专家 使 用 的 传统 控制 器 ， 
并 将 行为 ， 而 非 计 算 ， 作 为 设计 机 器 人 的 参考 。 随 着 我 们 对 如 何 搭建 机 
器 人 的 了 解 更 加 深入 ， 会 更 清楚 地 认识 到 号 体 是 意识 的 一 部 分 。 

在 “为 什么 自然 语言 处 理 现在 是 统计 上 自然 语言 处 理 ”(Why Natural 
Language Processing is Now Statistical Natural Language Processing) 的 演 
讲 中 ， 欧 仁 : 查 尼 阿 克 (Eugene ”Charniak) 解释 说 ， 语 法 的 基本 作用 是 
在 句子 中 标记 词类 。 人 类 接受 这 方面 训练 后 ， 会 比 现 有 的 解析 程序 做 得 
更 好 。 计 算 语 言 学 领域 最 初试 图 应 用 诡 姆 . 乔 姆 斯 基 在 20 世 纪 80 年 代 首 


创 的 生成 语法 〈generative grammar) 方法 ， 但 结果 令 人 失望 。 最 终 被 证 
明 可 行 的 办 法 是 ， 聘 请 布朗 大 学 的 学 生 为 《华尔街 日 报 》 上 和 干 篇 文章 的 
词类 进行 手写 标注 ， 然 后 应 用 统计 技术 ， 根 据 相 邻 单词 来 确定 特定 单词 
的 词类 。 这 一 过 程 需要 大 量 的 例子 ， 因 为 大 多 数 单 词 有 多 重合 义 ， 每 个 
单词 对 应 许多 不 同 的 上 下 文 。 目 前 ， 在 句子 中 对 词类 进行 自动 标记 ， 已 
经 成 为 可 以 利用 机 器 学 习 来 解决 的 问题 。 

这 些 成 功 的 故事 有 一 个 共同 的 轨迹 。 过 去 ， 电 脑 速 度 很 慢 ， 只 能 用 
少数 几 个 参数 来 探索 一 个 玩具 模型 。 但 是 这 些 玩具 模型 无 法 适用 于 现实 
世界 的 数据 。 当 拥有 了 大 量 数据 ， 并 且 计 算 机 速度 也 更 快 时 ， 就 可 以 创 
建 更 复杂 的 统计 模型 ， 并 提取 更 多 特征 和 特征 之 间 的 关系 。 深 上 度 学 习 使 
这 一 过 程 实现 了 自动化。 深度 学 习 可 以 从 非常 大 的 数据 集中 提取 特征 ， 
而 不 是 让 领域 专家 为 每 个 应 用 程序 手动 创建 这 些 特 征 。 随 着 计算 取代 了 
劳动 力 并 不 断 变 得 更 廉价 ， 计 算 机 将 能 够 执行 更 多 劳动 密集 型 的 认 知 任 


务 。 


在 会 议 结束 时 的 总 结 性 发 言 中 ， 马 文 : 明 斯 基 一 开始 就 表示 ， 他 对 
演讲 和 AI 的 研究 方 癌 感到 失望 。 他 解释 道 : “你们 不 是 在 解雇 通用 的 智 
能 问题 。 你 们 只 是 在 解决 具体 的 应 用 问题 。” 这 次 会 议 应 该 是 对 我 们 所 
取得 的 进展 的 一 次 庆祝 ， 但 是 却 被 他 的 指 贡 打击 了 。 我 做 的 演讲 是 关于 
强化 学 习 的 进展 ， 并 展示 了 TD-Gammon 通 过 训练 ， 能 在 西洋 双 陆 棋 中 
表现 出 冠军 水 平 的 显著 成 果 。 不 过 我 的 演讲 并 没有 给 他 留 下 深刻 的 印 
象 ， 他 始终 认为 ， 那 只 是 一 个 游戏 罢了 。 

明 斯 基 的 “通用 的 智能 ”意味 着 什么 呢 ? 他 在 其 著作 《心智 社会 》 
(The Society of Mind) 三 中 提 到 ， 前 提 是 通用 的 智能 来 自 简单 媒介 之 
间 的 相互 作用 。 明 斯 基 曾 经 说 过 ， 有 关 他 的 理论 的 最 大 想法 ， 是 来 源 于 
试图 创建 一 台 使 用 机 右 人 手臂 、 摄 像 机 和 计算 机 的 机 器 ， 可 以 用 儿童 的 
积木 构建 一 个 结构 〈 图 2-1) 。' 三 这 上 听 起 来 很 像 一 个 应 用 。 一 个 有 具体 的 
应 用 会 迫使 你 专注 于 并 深入 到 最 底层 问题 ， 而 抽象 理论 化 的 方法 则 不 
能 。 演 言 人 在 达 特 芒 斯 会 议 上 所 报告 的 成 就 ， 来 自 对 具体 问题 的 深入 了 


解 ， 为 更 全 面 的 理论 理解 铺 平 了 道路 。 也 许 ， 一 个 更 好 的 通用 智能 理论 
有 一 天 会 从 这 些 锋 隘 的 AI 成 就 中 浮现 出 来 。 

我 们 的 大 脑 不 只 是 凭空 产生 抽象 的 想法 。 它 们 与 我 们 且 体 的 所 有 部 
位 密切 相连 ， 而 我 们 的 身体 又 通过 我 们 的 感官 输入 和 运动 效应 器 与 外 界 
密切 相连 。 生 物 智能 因此 而 具体 化 。 更 重要 的 是 ， 我 们 的 大 脑 在 与 外 界 
互动 的 同时 ， 经 历 了 一 个 漫长 的 成 熟 过 程 。 学 习 是 一 个 与 发 育 同时 进行 
的 过 程 ， 并 且 在 我 们 达到 成 年 后 仍然 会 持续 很 长 一 段 时 间 。 因 此 ， 学 习 
对 于 通用 乔 能 的 发 展 至 关 重 要 。 有 趣 的 是 ， 人 工 智 能 中 最 难 解决 的 问题 
之 一 是 前 识 ， 显 然 这 是 儿童 并 不 具备 的 ， 只 有 在 长 期 与 外 界 接 触 后 ， 大 
多 数 成 人 才 会 获得 币 识 。 人 工 智 能 中 经 党 忽略 的 情绪 和 通 感 也 是 智能 的 
一 个 重要 方面 。 三 情绪 是 个 整体 信号 ， 可 以 使 大 脑 为 不 能 由 局 部 大 脑 状 
态 决 定 的 行动 做 好 准备 。 

AI@50 的 最 后 一 天 举行 了 宴会 。 在 晚餐 结束 时 ，1956 年 达 特 茅 斯 人 
工 智 能 夏季 研究 项 目的 5 名 回归 成 员 简要 介绍 了 会 议和 人 工 智 能 的 未 
来 。 在 问答 期 间 ， 我 站 起 来 ， 转 癌 明 斯 基 说 道 ;“ 神 经 网 络 社区 有 一 种 
看 法 : 你 是 上 世纪 70 年 代 需 要 为 神经 网 络 铺 条 负 员 的 秦 购 。 你 是 秦 购 
吗 ? ” 明 斯 基 发 起 了 一 场 关 于 我 们 如 何不 理解 我 们 网 络 的 数学 局 限 性 的 
长 篇 大 论 。 我 打 断 了 他 :“ 明 斯 基 博 士 ， 我 问 的 是 一 个 是 或 否 的 问题 。 
你 是 ， 还 是 不 是 ? "MRR AZ, AA: “SEM, REEL” 


1958 年 ， 弗 兰 克 : 罗 和 森 布 拉 特 制造 了 一 个 模拟 计算 机 ， 被 设计 用 来 
模拟 感知 器 ， 因 为 当时 数字 计算 机 在 模拟 计算 密集 度 高 的 网 络 模型 时 速 
度 很 慢 。 到 了 20 世 纪 80 年 代 ， 计 算 机 的 计算 功能 大 大 提升 ， 让 我 们 能 够 
通过 模拟 小 型 网 络 来 探索 学 习 算 法 。 但 直到 2010 年 ， 才 有 足够 的 计算 机 
能 力 将 网 络 规模 扩大 到 可 以 解决 实际 问题 的 程度 。 

明 斯 基 在 1954 年 从 普林斯顿 大 学 获得 数学 博士 学 位 ， 他 的 论文 是 关 
于 用 神经 网 络 进行 计算 的 理论 和 实验 研究 。 他 甚至 用 电子 部 件 构建 出 了 
小 型 网 络 ， 以 了 解 它 的 行为 。 当 我 还 古 普林斯顿 大 学 物理 系 的 研究 生 
时 ， 就 听 说 数学 系 里 没有 人 有 资格 评审 他 的 论文 三， 所 以 人 们 把 它 发 给 


了 普林斯顿 高 等 研究 院 的 数学 家 们 ， 据 说 他 们 能 与 上 帝 交 谈 。 回 复 的 评 
论 是 ,“ 如 果 这 在 今天 不 是 数学 ， 未 来 总 有 一 天 会 是 。” 这 足以 为 明 斯 基 
最 得 他 的 博士 学 位 。 而 神经 网 络 确实 引发 了 一 类 新 的 数学 函数 ， 这 些 函 
数 激 发 了 新 的 研究 ， 并 正在 成 为 数学 的 一 个 新 分 文 。 年 轻 的 明 斯 基 超 越 
了 他 的 时 代 。 


从 深度 学 习 到 通用 人 工 乔 能 


马 文 : 明 斯 基于 2016 年 去 世 ， 他 坚信 神经 网 络 无 法 实现 通用 的 人 工 
智能 。 斯 带 分 :证 尔 夫 勒 姆 在 一 篇 关于 他 与 明 斯 基 友谊 的 文章 中 关切 地 
写 道 :“ 昌 然 我 认为 没有 人 能 在 当时 就 预见 到 ， 但 我 们 现在 知道 ， 马 文 
早 在 1951 年 就 已 经 在 研究 的 神经 网 络 ， 在 朝 着 他 所 希望 的 那 种 令 人 叹 为 
观 止 的 AI 能 力 发 展 的 正确 道路 上 前 进 。 可 惜 这 个 过 程 太 久 了 ， 马 文 几乎 
没 能 看 到 它 的 实现 。” 二 

明 斯 基 去 世 后 不 久 ，DeepMind 的 研究 人 员 艾 历 克 斯 :格雷 夫 斯 
(Alex Graves) 和 格雷 格 : 韦 恩 (Greg Wayne) 通过 添加 动态 外 部 存储 
器 ， 实 现 了 基于 深度 学 习 的 通用 人 工 智 能 的 下 一 步 。 三 活动 模式 在 深度 
循环 神经 网 络 中 只 能 被 暂时 存储 ， 这 就 很 难 对 推理 和 推 半 进行 模拟 。 通 
过 在 网 络 中 添加 一 个 稳定 的 存储 器 ， 可 以 像 数字 计算 机 内 存 一 样 灵 活 地 
写 入 和 读 取 ， 研 究 人 员 展 示 了 一 个 训练 好 的 强化 学 习 网 络 ， 可 以 回答 需 
要 推理 的 问题 。 例 如 ， 一 个 这 样 的 网 络 对 伦敦 地 铁路 线 做 出 了 合理 的 规 
划 ， 男 一 个 则 回答 了 关于 家 谱 中 成 员 关 系 的 问题 。 动 态 记 忆 网 络 
(Dynamic Memory Networks) 也 能 够 掌握 20 世 纪 60 年 代 对 抹 省 理工 学 
院 人 工 智 能 实验 室 提 出 挑战 的 “积木 世界 ”任务 (图 2-1) 。 这 就 带 我 们 
回 到 了 第 2 章 开 始 的 地 方 。 

弗 姑 西 斯 -元 里 克 于 2004 年 去 世 ， 此 后 不 久 ， 菜 斯 利 : 奥 格 尔 在 2007 
年 也 去 世 了 ， 这 标志 着 索 尔 克 研 究 所 一 个 时 代 的 终结 。 现 在 这 些 科 学 巨 
人 已 经 不 在 我 们 身边 了 ， 而 新 一 代 的 学 者 仍 在 向 前 迈进 。 我 在 索 尔 死 研 


究 所 工作 了 30 年 ， 相 当 于 它 一 半 的 寿命 。 我 们 的 大 家 庭 组 建 于 1960 年 ， 
所 有 的 教 职 工 都 在 同一 条 小 船上 。“ 索 尔 克 号 ”很 小 ， 小 到 每 个 人 都 认识 
对 方 。 但 即使 在 今天 ， 我 们 有 了 1000 人 的 团队 ， 它 仍然 会 带 给 我 们 一 种 
家 的 感觉 ， 也 证 明了 这 个 机 构 文 化 的 持久 性 


我 们 是 一 个 伟大 的 生物 链 (可 以 回溯 到 细 落 出 现 之 前 〉 中 的 一 员 。 


现在 我 们 已 经 到 了 理解 大 脑 以 及 它们 是 如 何 发 展 的 边缘 ， 这 将 会 是 一 个 


奇迹 ， 能 够 永远 改变 我 们 对 上 自己 的 看 法 。 
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西 德 尼 : 布 伦 纳 (Sydney Brenner) 在 南非 出 生 并 接受 教育 ， 随 后 参 
与 了 剑桥 大 学 早期 的 分 子 遗 传 学 研究 工作 (图 18-1，〉。 他 曾 与 弗朗西斯 
TENESTE KEZ (LMB) 共用 一 个 办 公 室 。 如 果 是 你 ， 在 
发 现 DNA 的 结构 并 解 天 了 遗传 密码 之 后 ， 会 在 下 一 个 项 目 里 做 什么 ? 殉 
里 克 决 定 把 重点 放 在 人 类 的 大 脑 上 。 布 伦 纳 开 始 研 究 一 种 新 模式 生物 
— —£k!H (C. elegans) ， 这 是 一 种 生活 在 土壤 中 的 曙 虫 ， 有 1 坚 米 长 ， 
只 有 302 个 神经 元 。 长 期 退 踪 体内 的 每 个 细胞 ， 了 解 个 体 如 何 从 一 个 胚 
胎 逐 渐 发 育成 熟 的 研究 ， 使 得 这 些 线虫 成 了 许多 突破 性 发 现 的 源头 。 布 
伦 纳 因为 这 项 研究 ， 在 2002 年 和 罗伯特 霍 维 次 (CH. Robert Horvitz) 、 
约翰 : 苏 尔 期 顿 CJohn E. Sulston) ， 共 同 分 享 了 详 贝 尔 生 理学 或 医学 
奖 。 布 伦 纳 也 因 他 的 智慧 而 闻名 。 他 在 诺 贝 尔 获奖 者 演讲 中 ， 赞 扬 了 线 
虫 :“ 我 今天 的 演讲 题目 是 ‘大 自然 对 科学 的 恩赐 ’ (Nature's — gift — to 
Science) 。 内 容 并 不 是 关于 一 个 科学 期 刊 对 男 一 个 期 刊 的 致敬 ， 而 是 关 
于 生命 世界 的 多 样 性 如 何 启 发 和 服务 于 生物 研究 领域 的 创新 。” 三 看 上 
去 西 德 尼 : 布 伦 纳 似乎 见证 了 “ 创 世 记 ”。 


图 18-1 西 德 尼 。 布 伦 纳 是 生物 学 界 的 传奇 人 物 。 他 研究 遗传 密码 ，DNA 中 碱 基 对 被 
转录 成 蛋白 质 的 方式 ， 并 因 其 对 模式 生物 的 开创 性 研究 工作 而 获得 诺 贝 尔 奖 。 这 张 
上 照片 来 自 2010 年 《科学 网 络 》 对 他 的 采访 ，http://thesciencenetwork. org/ 


programs/the-science-studio/sydney-brenner-part-1. 

AN VE 2N20095F TEAR ^K 5 OT FUT WS — m ZR PUER, ble D eA 
类 基因 组 ”(Reading the Human Genome) 三 ， 讲 座 很 精彩 ， 没 有 借助 
任何 约 灯 乒 或 道具 。 他 注意 到 ， 除 了 电脑 ， 还 从 没有 人 曾经 阅读 过 整个 
人 类 基因 组 ， 一 个 个 地 检查 碱 基 对 ， 于 是 便 将 其 作为 自己 的 目标 。 在 这 
个 过 程 中 ， 他 发 现 了 不 同 的 基因 和 物种 的 DNA 序 列 之 间 有 趣 的 相似 之 
处 。 


布 伦 纳 在 全 球 多 个 研究 机 构 都 有 教 职 。 他 在 新 加 坡 有 一 个 实验 项 
目 ; 也 是 日 本 冲绳 理工 学 院 的 创始 校长 ， 弗吉尼亚 州 阿 什 本 
(Ashburn) 附近 霍华德 : 体 斯 医学 研究 所 珍妮 和 莉 亚 研究 园区 的 高 级 研究 
员 ; 还 是 我 在 拉面 亚 索 尔 元 研究 所 领导 的 元 里 元 - 雅 各 布 理论 与 计算 生 
物 学 中 心 (Crick-Jacobs Center for Theoretical and Computational 
Biology) 的 高 级 研究 员 。 以 上 只 是 其 中 的 几 个 头衔 。 在 戴 维 :马尔 获得 
了 他 的 博士 学 位 后 ， 布 伦 纳 聘 请 马尔 在 LMB 从 事 计 算 研 究 工 作 ， 后 来 布 
伦 纳 通 过 自己 的 南非 朋友 西 摩尔 - 帕 普 特 ， 在 有 抹 省 理工 学 院 的 AI 实 验 室 


为 马尔 安排 了 一 个 职位 。 分 子 遗 传 学 和 神经 生理 学 之 间 的 关系 很 深 ， 而 
布 伦 纳 在 这 两 个 领域 都 处 于 中 心 位 置 。 

布 伦 纳 有 一 次 去 拉 价 亚 的 时 候 ， 我 和 他 号 了 顿 上 晚饭 ， 其 间 我 告诉 
他 ， 多 年 前 我 在 哈佛 医学 院 做 博士 后 的 时 候 听 过 一 个 故事 一 一 弗 明 西 斯 
` 殉 里 克 死 后 到 了 天 堂 。 对 彼得 看 到 这 个 坚定 的 无 神 论 者 感到 很 惊讶 ， 
但 弗 表 西 斯 去 天 竺 是 想 问 上 并 一 个 问题 。 他 被 带 到 了 田野 中 的 一 个 木 棚 
里 ， 里 面 散 落 着 各 种 轮子 和 齿轮 ， 都 是 失败 的 试验 品 。 弗 衣 西 斯 看 到 上 
第 围 着 皮质 围裙 站 在 工作 台 边 ， 正 在 修补 一 个 新 的 有 机 体 。“ 弗 朗 西 
斯 ，” 上 和 珊 说 ,“ 见 到 你 真是 太 高 兴 了 。 我 可 以 为 你 做 些 什 么 ? 关 在 我 的 
一 生 中 ，? 弗 明 西 斯 说 , “我 都 想 知 道 这 个 问题 的 答案 : 为 什么 苍蝇 有 成 
虫 盘 ? ”三 “ 杀 爱 的 弗朗西斯 ，” 上 和 帝 回 答 道 , “这 真是 个 尺 喜 ! 从 来 没有 
人 问 过 我 这 个 问题 。 我 已 经 将 成 虫 盘 放 入 苑 晶体 内 数 亿 年 了 ， 还 从 来 没 
有 听 到 过 任何 抱怨 。>” 

听 完 这 个 故事 ， 布 伦 纳 没 说 话 。 我 猜想 ， 讲 这 么 一 个 贬损 他 的 杀 密 
朋友 的 故事 ， 或 许 有 些 冒 犯 。“ 特 里 ，” 他 说 ,，“ 我 可 以 告诉 你 我 第 一 次 
磅 到 这 个 故事 的 那个 场景 。 弗 朗 西 斯 和 我 坐 在 办 公 室 里 ， 他 当时 正在 读 

本 关于 发 育 生 物 学 的 书 ， 突 然 举 起 手 说 :“ 上 篆 才 知道 苍蝇 为 什么 会 
AREA!” 

REARS- FEILER TI, HRR T TAARA E US 3E 
的 机 会 ， 有 多 少 呢 ? 我 让 布 伦 纳 告诉 我 最 初 的 版 本 。 他 说 故事 的 标题 
ECKE TET BU Ur v HR vis 他 的 故事 版 本 与 我 的 版 本 有 看 相 同 的 
基本 结构 ， 但 细节 却 不 尽 相 同 三 一 一 就 像 进 化 过 程 一 样 ， 故 事 的 基本 核 
心 不 变 ， 但 许多 细 市 却 改变 了 。 

我 于 2017 年 1 月 探望 了 在 新 加 坡 的 布 伦 纳 ， 庆 视 他 的 90 岁 生日 。 他 
因为 健康 问题 不 再 旅行 ， 还 需要 坐 在 轮椅 上 ， 但 仍 和 我 之 前 每 次 见 到 他 
时 那样 有 活力 。 西 奥 多 西 厄 斯 :多 布 赞 斯 基 (Theodosius Dobzhansky) 
经 说 过 ， 没 有 进化 论 ， 生 物 学 中 的 任何 东西 都 讲 不 通 。 三 布 伦 纳 于 2017 
年 2 月 21 日 在 新 加 坡 南洋 理工 大 学 举行 了 一 场 天 于 细 戎 进化 的 演讲 ， 该 


演讲 是 系列 讲座 《10 个 10: 进化 编 年 史 》 (10-on-10: The Chronicle of 
Evolution) 三 。 三 2017 年 7 月 14 日 ， 我 也 在 这 个 系列 讲座 中 做 了 关于 大 
脑 进化 的 主题 演讲 。 在 演讲 的 开头 ， 我 对 多 布 赞 斯 基 的 那 句 话 做 了 些许 
改动 : 没有 DNA， 生 物 学 中 的 任何 东西 都 讲 不 通 。 三 


每 个 物种 都 有 人知 能 


智能 在 许多 物种 中 发 展 起 来 ， 以 解决 它们 在 环境 中 面 对 的 生存 问 
题 。 在 海洋 中 进化 的 动物 与 在 陆地 上 进化 的 动物 相 比 ， 面 临 着 许多 不 同 
的 问题 。 视 觉 感知 使 我 们 能 够 感知 周围 的 世界 ， 我 们 还 发 展 出 了 视觉 智 
能 来 解释 这 些 视觉 信号 。 研 究 非 人 类 动物 的 自然 行为 的 动物 行为 学 家 
们 ， 已 经 在 这 些 动物 身上 发 现 了 人 类 并 不 具备 的 能 力 和 技巧 ， 如 回声 定 
位 : 蜗 蝠 主动 发 出 听觉 信号 来 探测 它们 所 处 的 环境 ， 并 对 回声 进行 分 
析 。 这 创造 了 外 部 世界 的 内 部 表征 ， 所 有 表象 都 与 我 们 的 视觉 体验 一 样 
生动 。 蝙 蝠 具有 上 听觉 智能 ， 它 能 分 辩 来 自 鼓 翼 的 昆虫 《可 以 捕捉 ) 和 来 
自 障碍 (需要 避免 ) 的 信号 。 

纽约 大 学 的 哲学 家 托马斯 :内 格 尔 CThomas Nagel) 在 1974 年 写 了 一 
篇 题 为 《成 为 一 只 蝙 蚁 是 什么 感觉 ? 》 (What Is It Like to Be a Bat?) 
的 文章 ， 并 得 出 结论 ， 如 果 没 有 回声 定位 的 直接 经 验 ， 我 们 就 无 法 想象 
蝙蝠 世界 是 什么 样 的 。" 三 但 缺乏 这 种 经 验 并 没有 妨碍 我 们 发 明 雷 达 和 声 
呐 技 术 ( 这 些 技术 使 我 们 能 够 积极 探索 看 不 到 的 世界 ) ， 也 不 会 阻止 育 
人 通过 适应 声音 的 反射 来 摸索 周边 的 环境 。 我 们 也 许 不 知道 成 为 一 只 蝙 
旺 是 什么 感 党 ， 但 我 们 可 以 发 展 类 蝙蝠 的 智能 ， 协 助 自动 区 驶 汽车 使 用 
雷达 和 激光 雷达 行进 。 

我 们 人 类 是 大 自然 中 学 习 方 面 的 佼佼 者 。 我 们 可 以 在 更 广泛 的 领域 
中 学 得 更 快 ， 记 住 得 更 多 ， 通 过 不 断 繁衍 所 积累 的 知识 更 是 胜 过 任何 其 
他 物种 。 我 们 创造 了 一 种 名 为 “教育 ”的 技术 ， 以 增加 我 们 在 有 生 之 年 能 
够 学 到 的 东西 。 现 在 ， 儿 童 和 青少年 在 教室 里 度 过 了 自己 的 成 长 期 ， 不 


上 条 学 习 着 世界 上 他 们 从 未 直接 体验 过 的 事物 。 作 为 相对 近期 的 人 类 发 
明 ， 阅 读 和 写作 需要 很 多 年 才能 掌握 。 但 是 ， 这 些 发 明 使 得 积 昧 的 知识 
能 够 传递 给 下 一 代 ， 比 如 写 书 、 印 制 再 到 阅读 这 个 流程 ， 仅 靠 口 口 相传 
古 积累 不 了 那么 多 知识 的 。 正 是 写作 、 阅 读 和 学 习 ， 而 非 说 话 ， 使 现代 
文明 成 为 可 能 。 


进化 的 起 源 


我 们 的 进化 起 源 是 什么 ? 我 在 1998 年 协助 建立 的 拉 荷 亚 人 类 起 源 小 
组 ， 最 初 是 作为 一 个 小 组 定期 举行 会 议 ， 讨 论 可 能 帮助 我 们 回答 这 个 问 
题 的 许多 证 据 ， 这 些 证 据 来 自古 生物 学 、 地 球 物理 学 、 人 类 学 、 生 物化 
学 、 遗 传 学 ， 还 有 比较 神经 科学 。 它 逐渐 吸引 了 很 多 国际 会 员 ， 并 在 
2008 年 成 为 加 州 大 学 对 和 欠 戈 分校/ 索 尔 元 人 类 学 学 术 研 究 和 培训 中 心 
(UCSD/Salk Center for Academic Research and Training in 
Anthropogeny， 人 简称 CARTA) . 三 正如 NIPS 如 集 所 有 科学 和 工程 团队 
来 了 解 神经 计算 一 样 ， 在 探索 我 们 人 类 来 目 哪里 ， 如 何 走 到 现在 ， 培 养 
新 一 代 思 考 者 来 寻找 这 些 上 古老 问题 的 答案 方面 ，CARTA 也 吸取 了 来 目 
所 有 科学 领域 的 见解 。 三 


600 万 年 前 ， 人 属 的 谱系 从 黑猩猩 的 血统 中 分 离 出 来 《图 18-2) 。 
黑猩猩 是 一 种 非常 聪明 的 物种 ， 但 黑猩猩 的 智能 与 我 们 的 完全 不 同 。 在 
试图 教授 黑猩猩 语言 基础 知识 的 尝试 中 我 们 发 现 ， 它 们 仅 能 学 会 几 百 个 
符号 ， 用 它 来 表达 简单 的 需求 ， 尽 管 以 这 种 方式 衡量 它们 的 智能 显得 有 
些 不 太公 平 。 如 果 我 们 不 得 不 在 黑猩猩 的 队伍 中 生存 下 去 ， 我 们 又 会 有 
多 好 的 表现 呢 ? 所 有 的 物种 都 和 我 们 一 样 以 目 我 为 中 心 吗 ? 


图 18-2 黑猩猩 的 大 脑 和 体积 更 大 的 人 脑 之 间 的 比较 ， 人 脑 已 经 进化 出 显著 增 大 的 ， 
ALS RR KIRA. BARR: Allman, Evolving Brains, p. 164. 

在 人 类 和 黑猩猩 之 间 存 在 的 差异 ， 可 以 在 我 们 的 DNA 中 找到 。 我 们 
知道 这 一 点 已 经 有 一 段 时 间 了 ， 人 类 的 30 亿 个 DNA 碱 基 对 中 ， 与 黑猩猩 
不 同 的 只 占 1.4%。 当 黑猩猩 的 基因 组 被 首次 测序 后 ， 我 们 认为 自己 将 能 
够 阅读 生命 之 书 ， 发 现 人 类 与 黑猩猩 有 什么 不 同 。 很 遗憾 ， 此 书 大 约 有 
90% ”的 内 容 我 们 都 没有 能 力 读 慌 。 三 我 们 的 大 脑 与 黑猩猩 的 大 脑 非常 
相似 ; 神经 解剖 学 家 已 经 在 两 个 物种 中 确定 了 相同 的 脑 区 。 与 人 类 和 黑 
猩猩 在 行为 中 的 显著 差异 相 比 ， 这 两 个 物种 大 脑 之 间 的 大 部 分 差异 处 于 
分 子 水 平 ， 并 且 十 分 微妙 。 这 再 一 次 证 明了 ， 大 上 自然 比 我 们 聪明 。 


人 类 终 将 解决 智能 难题 


沫 斯 利 告诉 我 ， 奥 格 尔 的 第 一 法 则 指出 ， 细 胞 中 的 每 一 个 基本 反应 
都 会 演化 出 一 种 酶 ， 来 催化 这 种 反应 。 这 种 酶 不 仅 加 速 了 反应 ， 而 且 还 
可 以 通过 与 其 他 分 子 的 相互 作用 来 调节 反应 ， 从 而 使 细胞 更 加 高 效 ， 适 
应 性 更 强 。 目 然 以 一 个 巧妙 的 反应 路 径 开 始 ， 通 过 添加 酶 和 备份 路 径 逐 
渐 改 善 这 个 路 径 。 然 而 所 有 这 些 在 缺失 核心 过 程 的 情况 下 是 无 法 工作 
的 ， 这 个 核心 过 程 对 于 细胞 来 说 就 是 DNA 的 维护 和 复制 ， 它 在 细胞 生物 
化 学 领域 中 扮演 着 “蜂王 ”的 角色 。 


单 细 胞 生物 已 经 适应 了 许多 不 同 的 环境 ， 并 在 生态 中 演化 出 它们 自 


己 的 位 置 。 例 如 ， 细 菌 已 经 适应 了 极端 的 环境 一 一 从 海底 的 局 温 液体 喷 
口 到 南极 浏 的 冰 层 ， 以 及 更 多 温和 的 环境 ， 比 如 我 们 的 骨 肠 中 有 数 干 种 
细菌 。 像 大 肠 杆菌 这 样 的 细菌 〈 图 18-3) 已 经 发 展 出 了 按照 梯度 游 向 食 
物 来 源 的 算法 。 由 于 细菌 太 小 ， 在 几 微 米 的 体 长 里 不 能 直接 检测 到 梯 

度 ， 于 是 就 使 用 了 趋 化 性 ， 这 涉及 周期 性 地 翻滚 并 随机 游 动 。 三 这 看 起 
来 可 能 会 适得其反 ， 但 通过 在 高 浓度 的 地 方 将 游 动 时 间 延 长 ， 细 戎 可 以 


准确 地 按 浓度 梯度 爬行 。 它 们 的 智能 是 一 种 原始 智能 ， 但 细 革 比 最 聪明 
的 生物 学 家 还 要 聪明 。 这 和 群 最 聪明 的 生物 学 家 尚未 弄 清楚 细 霄 是 如 何在 
如 此 多 样 的 环境 中 生存 的 。 在 多 细胞 动物 中 可 以 发 现 更 复杂 的 智能 形 
Ae 


b 
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图 18-3 大 肠 杆 菌 的 扫描 电子 显 微 照片 。 细 菌 是 地 球 上 最 多 样 、 最 健壮 、 最 成 功 的 生 
命 形 式 。 通 过 研究 它们 ， 我 们 可 以 学 到 很 多 关于 自主 智能 的 知识 。 图 片 来 源 : 


NIAID, NIH. 
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行为 ， 通 过 人 类 大 脑 皮 层 的 深度 学 习 ， 强 化 了 人 类 的 复杂 性 。 上 自然界 有 
一 系列 的 智能 行为 ， 可 以 让 人 工 系统 从 中 学 习 。 路 越 计 算 机 科学 和 生物 
学 的 算法 生物 学 是 一 个 新 的 科学 领域 ， 寻 求 使 用 算法 的 语言 来 描述 生物 
系统 所 使 用 的 问题 解决 策略 。 三 我 们 希望 ， 确 定 这 些 生物 算法 将 会 启迪 
新 的 工程 计算 范式 ， 并 能 让 我 们 对 生物 网 络 有 系统 级 的 理解 。 以 上 都 不 
是 重点 ， 最 终 的 目标 是 解释 跨 空间 和 时 间 尺 度 的 生物 系统 中 骨 套 的 复 林 
性 : 基因 网 络 、 代 谢 网 络 、 和 免疫 网 络 、 神 经 网 络 和 社交 网 络 一 一 全 部 都 
是 网 络 。 


深度 学 习 取 决 于 对 一 个 成 本 函数 的 优化 。 自 然 界 的 成 本 函数 是 什么 
呢 ? 进化 成 本 的 倒数 被 称 为 适应 度 ， 但 这 是 一 个 概念 ， 只 在 具体 的 约束 
条 件 下 才 有 意义 ， 无 论 约束 条 件 是 来 日 环境 ， 还 是 来 日 要 被 优化 的 系 
统 。 在 大 脑 中 ， 有 一 些 调 市 行为 的 固有 成 本 ,例如 对 食物 、 温 有 度 、 安 
全 、 氧 气 和 生育 的 需要 。 在 强化 学 习 中 ， 需 要 采取 行动 来 优化 未 来 的 回 
报 。 但 除了 保证 生存 的 奖励 之 外 ， 从 人 类 令 人 眼花 综 乱 的 行为 中 可 以 看 
出 ， 还 有 各 种 各 样 其 他 的 奖励 可 以 被 优化 。 是 不 是 一 些 潜在 的 通用 成 本 
函数 导致 了 这 种 多 样 性 呢 ? 


我 们 仍 在 寻找 骏 露 智能 最 高 形态 秘密 的 核心 概念 。 我 们 已 经 确定 了 
一 些 关 键 原则 ， 但 是 却 没有 一 个 概念 框 染 能 像 DNA 解 释 生 命 本 质 那 样 ， 
优雅 地 解释 大 脑 如 何 运转 。 学 习 算 法 是 寻找 统一 概念 的 好 地 方 。 也 许 ， 
我 们 在 理解 深度 学 习 网 络 如 何 解 决 实际 问题 方面 取得 的 进展 ， 将 引出 更 
多 线索 。 我 们 可 能 会 及 现 细胞 和 大 脑 中 使 进化 成 为 可 能 的 操作 系统 。 如 
果 我 们 能 解决 这 些 问 题 ， 就 可 能 会 有 想象 不 到 的 收获 。 目 然 可 能 比 我 们 
每 一 个 人 者 更 聪明 ， 但 作为 一 个 物种 ， 我 并 不 认为 人 类 无 法 解决 智能 难 
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附录 一 
致谢 


我 工作 的 索 尔 元 生物 研究 所 是 一 个 与 众 不 同 的 地 方 。 从 外 面 看 ， 它 
就 像 一 个 混凝土 堡垒 ， 但 是 当 你 进入 中 央 许 院 时 ， 会 看 到 一 大 片 石 灰 宕 
延伸 到 太平 洋 ， 两 侧 高 符 的 塔 架 让 这 美 轮 美 仙 的 景色 定格 在 你 的 眼前 
(All) 。 三 我 的 实验 室 在 南 楼 ， 位 于 庭院 外 《照片 左 侧 ) 。 你 在 入 口 
处 左边 的 墙 上 会 看 到 一 张 电 子 显微镜 下 的 海马 体 的 照 厂 ， 它 看 起 来 像 一 
Ae AA TY ATA; 入口 通 问 共 室 ， 那 里 是 计算 机 神经 生物 学 实验 室 
的 心脏 。 

世界 上 最 杰出 的 一 些 科 学 家 ， 包 括 弗 明 西 斯 : 殉 里 克 ， 很 喜欢 与 学 
生 和 同事 围 着 圆 形 的 白色 杂 加 讨论 各 种 科学 问题 (图 2〉 o EKRE, X 
室 还 出 现在 了 克 里 克 的 著作 《惊人 的 假说 》 (The Astonishing 
Hypothesis) 中 : 


特 里 。 谢 诺 夫 斯 基 在 索 尔 克 研 究 所 的 团队 ， 在 本 周 的 大 多 数 午 
餐 后 都 会 举行 非 正 式 的 茶会 。 这 些 茶会 是 讨论 最 新 实验 结果 ， 抛 出 
新 的 想法 ， 或 只 是 聊 聊 科学 、 政 治 或 新 闻 的 理想 场合 。 有 一 天 我 去 
喝 茶 ， 并 向 帕 特 。 详 奇 兰 德 和 特 里 。 谢 诺 夫 斯 基 宣 布 ， 我 发 现 意愿 
诞生 的 位 置 了 ! 它 位 于 或 靠近 前 扣 带 回 。 与 安东尼 奥 。 达 马 西 奥 讨 
论 此 事 时 ， 我 发 现 他 也 有 同样 的 想法 。 三 


Z 


图 1 在 加 州 拉 荷 亚 市 的 家 尔 克 生物 研究 所 ， 可 以 俯 虞 太平 洋 。 这 座 由 路 易 斯 。 卡 恩 设 
计 的 标志 性 建筑 是 一 座 科学 的 圣 殿 ， 也 是 我 每 天 上 班 的 地 方 。 图 片 来 源 : Kent 
Schnoeker ， 索 尔 克 生物 研究 所 。 

我 尤其 记得 ， 克 里 克 在 1989 年 与 比 阿 特 丽 斯. 哥伦布 一 起 喝 茶 的 屠 
天 。 他 告诉 我 ， 比 阿 特 丽 斯 想 从 事 神经 网 络 的 研究 工作 ， 我 应 该 雇用 
她 。 写 比 阿 特 丽 斯 是 加 州 大 学 圣 办 记分 校 的 一 名 医学 博士 生 ， 读 研究 生 
的 时 候 曾 与 克 里 克 一 起 短暂 工作 过 一 段 时 间 。 她 普 想 把 神经 网 络 作为 好 
的 博士 论文 项 目 ， 但 这 违反 了 生物 系 的 规定 。 我 接受 了 元 里 克 的 建议 ， 
我 们 彼此 都 从 对 方 那里 学 到 了 很 多 。 自 我 们 于 1990 年 在 加 州 理工 学 院 的 
Athenaeum 宴 会 厅 举行 婚礼 以 来 ， 我 一 直 在 癌 她 学 习 。 


AREAN EAER FEAF N, KREM- ARFER. RT 
1981 年 在 托马斯 ' 储 金 斯 生物 物理 系 从 事 的 第 一 份 工作 中 ， 为 我 的 新 实 
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而 我 是 年 轻 的 宠儿 ， 他 们 让 我 有 信心 在 新 的 方 问 发展 ， 对 此 我 永远 心 存 


感激 。 作 为 哈佛 医学 院 神 经 生物 学 系 的 博士 后 ， 我 保留 了 下 午 茶 传统 。 
在 一 个 庞大 而 多 样 的 科 系 里 ， 这 是 一 种 让 大 家 保持 联系 并 了 解 实 验 进展 
的 方法 。 我 在 索 尔 克 研 究 所 的 实验 室 是 一 个 微型 大 学 ， 拥 有 来 自 科 学 、 
数学 、 工 程 和 医学 等 不 同 专业 背景 的 学 生 ， 下 午 茶 时 间 是 我 们 大 集体 团 
聚 的 时 间 。 


- 


PENS 


图 2 2010 年 索 尔 克 研 究 所 计算 神经 生物 学 实验 室 (CNL) 的 茶室 。 日 常 茶 会 一 直 是 本 
书 描述 的 许多 学 习 算 法 和 科学 发 现 的 社交 鲜 化 器 。 图 片 来 源 : 索 尔 克 生 物 研究 所 。 


我 很 幸运 。 我 的 父母 很 重视 教育 ， 从 小 就 十 分 信任 我 ;我 生活 在 前 
所 未 有 的 经 阐 增长 和 过 地 机 会 的 时 代 ， 这 开阔 了 我 的 视野 ， 我 的 导师 和 
合作 者 慷慨 地 分 享 了 他 们 的 见解 和 建议 ;我 有 笠 与 一 代 极 其 优秀 的 学 生 
一 起 工作 。 我 特别 感谢 杰 弗 里 . 辛 顿 、 约 翰 . 霍 普 菲 尔 德 、 布 鲁 斯 : 奈 特 
(Bruce Knight) . WES JERY, Ww Wr az oe (Michael 
Stimac) 和 约翰 : 惠 勒 (John Wheeler) ， 同 样 也 感谢 我 的 岳父 所 罗 门 : 哥 
伦 布 ， 他 们 在 我 职业 生涯 的 各 个 转折 点 帮助 我 选择 了 正确 的 方向 。 比 阿 
特 丽 斯 具有 批判 性 思维 ， 我 从 她 那里 学 到 了 如 何 避 免 群 体 思 维 。 仅 仅 因 


为 每 个 人 都 相信 和 茶 种 解释 ， 并 不 能 证 明 它 就 是 真理 。 有 时 需要 花费 整整 
一 代 人 的 时 间 ， 才 能 从 群体 中 剔除 一 个 普 近 持 有 的 信念 。 


同时 ， 我 还 要 感谢 在 本 书 的 写作 过 程 中 帮助 过 我 的 其 他 人 。 与 长 期 
合作 者 帕 特 里 夏 : 丘 奇 兰 德 和 “科学 网 络 ” 的 创始 人 罗 杰 : 宾 汉 姆 (Roger 
Bingham) 在 网 上 进行 的 探讨 ， 为 本 书 的 写作 提供 了 灵感 。 约 参 : 多 伊 尔 
(John Doyle) 对 控制 理论 的 洞 见 司 发 了 我 对 大 脑 操作 系统 的 讨论 。 与 
JLE MEW (Cary Staller) 在 瑞士 克 洛 斯 特 斯 和 达 沃 斯 附近 山上 的 徒步 
旅行 ， 帮 我 理 清 了 对 算法 空间 的 理解 。 芭 芭 拉 : 奥 克 利 教会 我 如 何 接 触 
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方式 。 还 有 很 多 人 为 本 书 提 供 了 宝贵 的 反馈 和 建议 ， 他 们 包括 : Yoshua 
Bengio, Sydney Brenner, Andrea Chiba, Gary Cottrell, Rodney 


Douglas, Paul Ekman, Michaela Ennis, Jerome Feldman, Adam 
Gazzaley, Geoffrey Hinton, Jonathan C. Howard, Irwin Jacobs, Scott 
Kirkpatrick, Markl Jack Knickrehm, Te-Won Lee, James McClelland, 
Saket Navlakha, Barbara Oakley, Tomaso Poggio, Charles Rosenberg; 
David Silver, James Simons, Marian Stewart-Bartlett, Richard Sutton, 
Paula Tallal, Gerald Tesauro, Sebastian Thrun, Ajit Varki, Massimo 
Vergassola, Stephen Wolfram 〈 他 也 为 本 书 的 书 名 提供 了 建议 ) ， 以 及 


Steven Zucker. 


自 1984 年 以 来 ， 伍 北 霍 尔 计算 神经 科学 研讨 会 每 年 夏天 都 会 举行 一 
次 ， 其 中 有 一 小 部 分 核心 成 员 和 新 的 参与 者 在 早上 和 晚上 会 进行 深入 讨 
论 ， 下 午 是 留 给 大 家 做 户外 活动 的 自由 时 间 一 一 多 么 完美 的 安排 。 这 个 
研讨 会 的 成 员 都 拥有 了 杰出 的 职业 生涯 。 伍 兹 霍 尔 研讨 会 一 直 持 续 到 今 
天 ， 但 于 1999 年 转移 到 特 柳 赖 德 ， 和 人 年度 神 经 形态 工程 研讨 会 一 起 举 
办 。 我 感谢 过 去 三 十 年 来 参加 这 些 研讨 会 的 所 有 人 ， 特 别 是 John 
Allman, Dana Ballard, Robert Desimone, John Doyle, Katalin 
Gothard, Christof Koch, John Maunsell, William Newsome, Barry 
Richmond, Michael Stryker， 和 Steven Zucker。 


我 在 索 尔 死生 物 研 究 所 和 加 州 大 学 圣迭戈 分 校 的 同事 们 ， 都 是 态 出 
的 有 创业 和 合作 精神 的 研究 人 员 ， 他 们 正在 创造 生物 医学 科学 的 未 来 。 
加 州 大 学 圣迭戈 分 校 神 经 计算 研究 所 的 教师 和 学 生 ， 在 我 1990 年 创 所 以 
来 ， 以 我 从 未 想象 过 的 方式 整合 了 神经 科学 和 计算 。 


索 尔 克 研 究 所 的 计算 神经 生物 学 实验 室 在 过 去 的 三 十 年 里 一 直 是 我 
的 家 ， 我 的 许多 学 术 弟 子 已 经 离开 ， 在 全 世界 继续 着 秆 勃发 展 的 职业 生 
涯 。 一 个 实验 室 就 像 一 个 家 许 ， 几 代 热 情 的 研究 生 和 博士 后 大 大 丰富 了 
我 的 生活 。 我 的 实验 室 管理 员 罗 丝 玛 丽 : 米 勒 (Rosemary Miller) 和 玛丽 
: 艾 伦 : 佩 里 (Mary Ellen Perry) 精心 地 照顾 着 实验 室 。 玛 丽 : 艾 伦 在 过 去 
的 十 年 中 一 直 担 任 NIPS 的 董事 总 经 理 ， 李 :坎贝尔 (Lee Campbell) 开发 
了 一 个 计算 机 平台 ， 使 我 们 能 够 将 会 议 规 模 扩 大 十 倍 。 

我 很 感谢 厂 省 理工 学 院 出 版 社 ， 四 十 年 来 它 一 直 是 我 可 靠 的 合作 伙 
伴 ， 出 版 了 我 和 托 马 索 : 波 吉 奥 编辑 的 一 套 关 于 计算 神经 科学 的 从 书 ; 
我 于 1989 年 创立 的 期 刊 《神经 计算 》 (Neural Computation) ; 我 于 
1992 年 出 版 的 书 《 计 算 大 脑 》 (The Computational Brain) ; 以 及 其 他 
人 写 的 一 些 关 于 机 器 学 习 的 基础 书籍 ， 比 如 理 查 德 : 萨 顿 和 安德鲁 : 巴 托 
的 《强化 学 习 导 论 》 (Reinforcement Learning: An Introduction) , FE 
古 德 费 洛 、 约 书 亚 . 本 吉 奥 和 亚 伦 : 库 维尔 (Aaron Courville〉 联 合 撰写 
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“TERR CRobert Prior) 在 本 书 漫 长 的 出 版 过 程 中 ， 也 对 本 书 的 写作 提 
供 了 指导 。 

我 还 要 感谢 NIPS 社 区 ， 没 有 他 们 ， 我 就 无 法 写 出 这 本 《深度 学 
习 》， 本 书 远 没 有 涵盖 这 个 领域 的 全 面 历 史 ， 它 只 关注 了 几 个 主题 和 参 
与 神经 网 络 研 究 的 一 些 人 。 国 际 神经 网 络 协会 的 期 刊 《 神 经 网 络 》 一 直 
是 扩大 神经 网 络 研究 范围 的 坚强 后 盾 。 该 协会 与 IEEE 人 合作， 每 年 举办 一 
次 神经 网 络 国际 联合 会 议 。 机 器 学 习 也 众生 了 许多 优秀 的 会 议 ， 包 括 国 
际 机 器 学 习 会 议 (ICML) ， 这 是 NIPS 的 姊妹 会 议 。 这 个 领域 极 大 地 受 
惠 于 来 自 所 有 这 些 组 织 ， 以 及 对 其 做 出 贡献 的 研究 人 员 。 


在 2018 年 长 浴 NIPS 的 开幕 式 上 ， 我 对 NIPS 的 发 展 表 达 了 人 惊叹: “我 
在 30 年 前 第 一 次 参加 NIPS 会 议 时 从 来 没有 想到 ， 今 天 会 站 在 这 里 ， 面 对 
着 8000 名 与 会 者 发 表演 讲 一 一 我 当时 以 为 这 个 会 议 只 能 持续 10 年 。” 我 
于 2016 年 4 月 访问 了 现 居 加 州 山 景 城 (Mountain View) RRE Æ 
We “KAR” (Google Brain) 团队 占据 了 一 栋 大 楼 的 一 整个 楼 层 。 
我 和 杰 弗 里 一 起 回顾 过 去 的 日 子 ， 得 出 了 我 们 已 经 启 得 胜利 的 结论 ， 但 
花费 的 时 间 比 我 们 预期 的 要 长 得 多 。 在 这 个 过 程 中 ， 杰 弗 里 入 选 了 英 格 
兰 和 加 拿 大 星 家 学 会 。 我 也 被 选 为 美国 国家 科学 院 、 国 家 医学 院 、 国 家 
工程 院 、 国 家 发 明 家 科学 院 和 国家 艺术 与 科学 学 院 院 士 ， 这 些 都 是 难得 
的 采 誉 。 我 非常 感谢 杰 弗 里 : 辛 顿 多 年 来 和 我 分 享 他 对 网 络 计算 的 见 
解 。 

作为 普林斯顿 大 学 的 研究 生 ， 我 曾经 致力 于 研究 爱 因 斯 坦 的 引力 理 
论 ， 广 义 相 对 论 中 的 黑洞 和 引力 波 。 然 而 ， 在 获得 我 的 物理 学 博士 学 位 
之 后 ， 我 的 研究 领域 转 癌 了 神经 生物 学 ， 大 脑 自 那 时 起 就 引起 了 我 的 兴 
趣 。 我 还 不 知道 我 的 第 三 次 转变 可 能 是 什么 。 所 罗 门 :哥伦布 曾经 告诉 
我 ， 所 谓 事 业 ， 只 能 用 来 追 滴 ， 我 在 写 这 本 书 时 也 确认 了 这 一 点 。 回 顾 
过 去 ， 我 发 现 了 那些 让 我 走 到 今天 这 一 步 的 事件 和 决定 ， 当 然 ， 当 时 的 
我 对 这 一 切 还 一 无 所 知 。 


1. 参阅 Sarah Williams Goldhagen, Louis Kahn’s Situated Modernism(New Haven:Yale 
University Press, 2001)。 


2. Francis Crick, The Astonishing Hypothesis: The Scientific Search for the Soul. (New York: 
Scribner's Sons, 1994), 267. 


3. 在 我 和 比 阿 特 丽 斯 相识 这 件 事 上 ， 元 里 元 同样 功 不 可 没 。 


附录 二 
词汇 表 


目 适 应 信号 处 理 Cadaptive signal processing) : 提高 信号 质量 的 
方法 ， 例 如 自动 粒度 控制 ， 或 可 自动 降低 噪声 的 可 调节 滤波 器 。 

算法 (algorithm)〉: 一 个 列 出 了 具体 操作 步骤 的 说 明 ， 你 可 以 按 
步骤 来 实现 一 个 目标 ， 束 像 对 照 荣 谱 烘 焙 和 蛋糕 一 样 。 

反 传 (或 误差 反 向 传播 ) [backprop (backpropagation of 
errors) | : 通过 梯度 下 降 来 优化 神经 网 络 的 学 习 算法 ， 以 最 小 化 代价 
函数 的 值 并 提高 网 络 性 能 。 

贝 叶 斯 规则 CBayess rule) : 基于 新 数据 和 与 事件 相关 条 件 的 先 
验 知识 ， 对 事件 概率 进行 更 新 的 规则 。 更 一 般 地 说 ， 贝 叶 斯 概率 是 对 当 
前 和 先 验 数据 产生 结果 的 信念 。 

玻 尔 效 曼 机 (Boltzmann machine) : 一 种 神经 网 络 模型 ， 由 相互 
作用 的 二 进 制 单元 组 成 ， 其 中 单元 处 于 活跃 状态 的 概率 取决 于 其 整合 的 
突 触 输入 。 该 模型 以 19 世 纪 物 理学 家 路 德 维 希 - 玻 尔 效 曼 命 名 ， 他 是 统 
tH HN ERE A. 

约束 条 件 (constraints) : 让 最 优化 问题 的 解决 方案 必须 满足 的 保 
证 其 值 为 正 的 条 件 。 

4544 (convolution) : 通过 计算 一 个 函数 与 另 一 个 函数 相对 移 位 的 
重 登 量 ， 将 两 个 函数 进行 混合 。 


代价 函数 (cost function) : 用 来 指定 网 络 目的 并 衡量 其 性 能 表现 


的 函数 。 学 习 算 法 的 目的 是 降低 代价 函数 的 值 。 
数字 助理 (digital assistant) : 用 以 辅助 完成 任务 的 虚拟 助理 ， 比 
如 亚马逊 智能 音箱 Echo 中 的 语音 助理 Alexa。 


周期 Cepoch) : 学 习 过 程 中 ， 从 指定 数量 的 样本 中 计算 出 平均 梯 
上 度 后 神经 网 络 中 权重 的 更 新 。 

平衡 (equilibrium) : 热力 学 状态 ， 其 中 没有 物质 或 能 量 的 净 宏 观 
流动 。 在 玻 尔 效 受 机 中 ， 神 经 单元 状态 是 概率 性 的 ， 当 输入 保持 不 变 
时 ， 系 统 会 最 终 稳定 在 平衡 状态 。 

反馈 (feedback) : 神经 网 络 中 由 高 /后 层 流向 低 / 前 层 神经 元 的 连 
接 ， 这 种 连接 使 信号 在 网 络 中 形成 了 环流 。 

前 馈 网 络 (feedforward network) : 一 种 多 层 神 经 元 网 络 ， 其 中 
各 层 神 经 元 之 间 的 连接 是 单 同 的 ， 从 输入 层 开 始 ， 到 输出 层 结束 。 


梯度 下 降 (gradient descent) : 一 种 以 降低 代价 函数 为 目的 的 优化 
方法 ， 在 每 个 周期 中 都 会 对 参数 进行 调整 ， 代 价 函 数 用 来 衡量 网 络 模型 
的 性 能 。 

EIERE (Hopfield net) : 由 约翰 : 霍 普 菲 尔 德 发 明 的 全 连 
接 神 经 网 络 模型 ， 根 据 不 同 的 输入 状态 ， 该 模型 都 能 保证 收敛 成 固定 的 
吸引 子 形态 ， 可 以 用 来 存储 和 提取 信息 。 对 该 网 络 进行 过 探讨 的 文章 有 
IET. 

学 习 算 法 〈learning algorithm) : 基于 样本 来 调整 函数 参数 的 算 
法 。 同 时 提供 了 输入 和 目标 输出 样本 的 是 监督 算法 ， 仅 提供 输入 样本 的 
是 无 监督 算法 。 强 化 学 习 是 监督 学 习 算 法 的 一 种 ， 仅 对 好 的 表现 进行 奖 
励 。 

逻辑 (logic) : 基于 结果 仪 为 真 或 假 的 假设 的 数学 推断 。 数 学 家 用 
逻辑 来 证 明定 理 。 

机 器 学 习 (machine learning) : 计算 机 科学 的 一 个 分 文学 科 ， 让 


计算 机 从 数据 中 学 习 如 何 完成 任务 ， 而 不 对 其 提供 明确 的 程序 设 定 。 


=P (millisecond) : 一 秒 的 千 分 之 一 〈0.001 秒 ) , BD— Tr EY 
调 的 一 个 周期 。 


大 规模 开放 式 在 线 课程 (massive open online course, MOOC) : 
互联 网 上 各 色 主 题 的 免费 课程 。 第 一 门 MOOC 诞 生 于 2006 年 ， 到 2018 年 
1 月 ， 网 上 大 约 有 9400 门 不 同 的 MOOC， 拥 有 约 9100 万 学 习 者 。 


神经 元 (neuron) : 一 种 特异 化 的 大 脑 细 胞 ， 整 合 其 他 神经 元 的 输 
出 作为 输入 ， 并 将 输出 信号 传递 给 其 他 神经 元 。 


归 一 化 (normalization) : 将 信号 的 振幅 稳定 在 固定 范围 内 。 一 种 
将 随时 间 变 化 的 正 值 信 号 进行 标准 化 的 方式 ， 即 用 该 信号 除 以 其 自身 的 
最 大 值 ， 使 归 一 化 的 信号 被 限定 在 0 和 1 之 间 。 

优化 Coptimization) : 从 提供 的 输入 集合 中 系统 地 选取 输入 值 的 
过 程 ， 以 找到 函数 的 最 大 或 最 小 输出 值 。 


TEME (overfitting〉: 当 一 个 网 络 模型 中 可 调整 参数 的 数量 远 
大 于 训练 数据 的 数量 ， 并 且 该 算法 使 用 了 过 多 参数 来 匹配 这 些 样本 时 ， 
经 过 训练 的 学 习 算 法 所 达到 的 状态 。 虽 然 过 度 拟 合 大 大 降低 了 网 络 适 应 
新 样本 的 能 力 ， 但 可 以 通过 正则 化 来 降低 这 种 负面 影响 。 

感知 器 (perceptron) : 一 个 简单 的 神经 网 络 模型 ， 由 一 个 神经 元 
和 一 系列 带 有 可 变 权重 的 输入 组 成 ， 可 以 通过 训练 来 对 输入 进行 分 类 。 

可 塑性 (plasticity〉: 神经 元 对 其 功能 的 改变 ， 如 连接 强度 的 改变 
4“ 突 触 可 塑性 >) ， 或 对 其 输入 的 啊 应 [“ 本 征 可 塑性 ”(intrinsic 
plasticity) ] 。 

概率 分 布 (probability distribution) : 指定 了 实验 中 系统 或 结 
的 所 有 可 能 状态 发 生 的 概率 的 函数 。 

循环 网 络 Crecurrent network) : 拥有 反馈 连接 ， 人 允许 信号 在 其 中 
循环 流动 的 神经 网 络 。 


正则 化 (regularization) : 在 训练 数据 有 限 的 情况 下 ， 防 止 具 有 许 
多 参数 的 网 络 模型 友 生 过 度 拟 合 的 方法 。 例 如 权重 衰减 ， 即 网 络 中 所 有 
的 权 值 在 训练 的 每 个 周期 都 会 减 小 ， 只 有 有 共有 较 大 正 梯 度 的 权 值 被 保 
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缩放 性 〈scaling) : 对 算法 的 复杂 程度 如 何 随 着 问题 的 大 小 而 变化 
的 判断 标准 。 例 如 ，n 个 数 相 加 的 复杂 上 度 缩放 性 为 nD， 但 是 n 个 数 所 有 两 
数 配 对 相 乘 的 复杂 度 缩放 性 为 nm 。 

Fam)” (skunk works) : 一 个 小 组 在 某 个 组 织 内 以 高 度 自 治 的 
方式 从 事 高 级 别 或 秘密 项 目 。 借 鉴 了 漫 国 作品 《丛林 小 子 》 Lil 
Abner) 中 月 光 工 广 的 名 称 。 

稀疏 原理 (sparsity principle) : 对 信号 的 稀疏 表征 ， 如 脑 电 图 
(EEG) 和 功能 磁 共 振 成 像 (fMRI) ， 用 少量 固定 基 函 数 的 加 权 和 来 近 
似 信号 。 这 些 基 函 数 在 独立 分 量 分 析 Cindependent component analysis) 
中 被 称 为 信 源 。 在 一 组 神经 元 中 ， 对 一 个 输入 的 稀 疏 表征 是 指 只 有 少数 
神经 元 高 度 活 跃 的 情况 。 这 可 以 减少 来 自 表 示 其 他 输入 的 活动 模式 的 干 
pi. 

WREE Cspine) : ATAR EAC AR OS. Fe SIS HY R fih 
后 部 位 。 

突 触 (synapse) : 两 个 神经 元 之 间 的 特异 化 连接 部 位 ， 信 号 从 突 
触 前 神经 元 传递 到 突 触 后 神经 元 。 

训练 和 测试 集 (training and test sets) : 基于 训练 集 的 表现 并 不 能 
很 好 地 评估 神经 网 络 在 新 输入 上 执行 的 效果 ， 但 训练 期 间 未 使 用 的 测试 
集 则 可 以 对 网 络 性 能 进行 评估 。 当 数据 集合 很 小 时 ， 可 以 使 用 训练 集 之 
外 的 单个 样本 ， 对 使 用 其 余 样 本 进行 训练 的 网 络 进行 性 能 测试 ， 并 且 对 
每 个 样本 重复 该 过 程 以 获得 平均 测试 性 能 。 这 是 n=1 时 的 交叉 验证 的 特 
例 ， 其 中 nn 个子 样本 被 保留 作为 测试 集 而 非 训练 集 。 

图 灵机 (Turing machine) : 由 阿兰 :图 灵 于 1937 年 发 明 的 一 种 假 


想 的 ， 可 以 用 来 做 数学 计算 的 简单 计算 机 模型 。 图 灵机 包括 一 个 可 以 前 
后 移动 的 “磁带 ”， 磁 带 修 划分 为 一 个 接 一 个 的 单元 ， 一 个 具有 “ 状 

态 ” 的 “磁头 ”"， 可 以 改变 其 下 活动 单元 的 属性 ， 以 及 一 套 关 于 磁头 如 何 
修改 活动 单元 格 并 移动 磁带 的 指令 。 在 每 个 步骤 中 ， 机 器 可 以 修改 活动 
单元 格 的 属性 并 更 改 磁头 的 状态 ， 之 后 再 将 磁带 移动 一 个 单元 。 


